論文の概要: LAION-5B: An open large-scale dataset for training next generation
image-text models
- arxiv url: http://arxiv.org/abs/2210.08402v1
- Date: Sun, 16 Oct 2022 00:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:04:01.296272
- Title: LAION-5B: An open large-scale dataset for training next generation
image-text models
- Title(参考訳): LAION-5B:次世代画像テキストモデルをトレーニングするための大規模オープンデータセット
- Authors: Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross
Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell
Wortsman, Patrick Schramowski, Srivatsa Kundurthy, Katherine Crowson, Ludwig
Schmidt, Robert Kaczmarczyk and Jenia Jitsev
- Abstract要約: 我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
- 参考スコア(独自算出の注目度): 16.129935376579326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Groundbreaking language-vision architectures like CLIP and DALL-E proved the
utility of training on large amounts of noisy image-text data, without relying
on expensive accurate labels used in standard vision unimodal supervised
learning. The resulting models showed capabilities of strong text-guided image
generation and transfer to downstream tasks, while performing remarkably at
zero-shot classification with noteworthy out-of-distribution robustness. Since
then, large-scale language-vision models like ALIGN, BASIC, GLIDE, Flamingo and
Imagen made further improvements. Studying the training and capabilities of
such models requires datasets containing billions of image-text pairs. Until
now, no datasets of this size have been made openly available for the broader
research community. To address this problem and democratize research on
large-scale multi-modal models, we present LAION-5B - a dataset consisting of
5.85 billion CLIP-filtered image-text pairs, of which 2.32B contain English
language. We show successful replication and fine-tuning of foundational models
like CLIP, GLIDE and Stable Diffusion using the dataset, and discuss further
experiments enabled with an openly available dataset of this scale.
Additionally we provide several nearest neighbor indices, an improved
web-interface for dataset exploration and subset generation, and detection
scores for watermark, NSFW, and toxic content detection. Announcement page
https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/
- Abstract(参考訳): CLIPやDALL-Eのような画期的な言語ビジョンアーキテクチャは、標準視覚のアンモダル教師あり学習で使われる高価な正確なラベルに頼ることなく、大量のノイズの多い画像テキストデータをトレーニングするの有用性を証明した。
得られたモデルは、強力なテキスト誘導画像生成と下流タスクへの転送能力を示し、注目すべきアウト・オブ・ディストリビューション・ロバスト性を備えたゼロショット分類において顕著なパフォーマンスを示した。
それ以来、ALIGN、BASIC、GLIDE、Flamingo、Imagenといった大規模言語ビジョンモデルはさらに改善された。
このようなモデルのトレーニングと能力を研究するには、数十億のイメージテキストペアを含むデータセットが必要である。
これまで、このサイズのデータセットは、より広い研究コミュニティで公開されていない。
この問題に対処し,大規模マルチモーダルモデルの研究を民主化するために,585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを提案する。
本稿では,データセットを用いたクリップ,グライド,安定拡散などの基礎モデルのレプリケーションと微調整に成功し,このスケールでオープンに利用可能なデータセットで実現可能なさらなる実験について考察する。
さらに,近辺の複数の指標,データセット探索とサブセット生成のための改良されたwebインターフェース,ウォーターマーク,nsfw,有害コンテンツ検出のための検出スコアを提供する。
発表ページ https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - CCMB: A Large-scale Chinese Cross-modal Benchmark [46.349966178044184]
我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。
Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-08T13:19:23Z) - KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文 参考訳(メタデータ) (2022-04-06T14:13:35Z) - WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。
画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。
また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文 参考訳(メタデータ) (2022-03-22T06:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。