論文の概要: LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs
- arxiv url: http://arxiv.org/abs/2111.02114v1
- Date: Wed, 3 Nov 2021 10:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 19:33:30.730891
- Title: LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs
- Title(参考訳): laion-400m:クリップフィルターによる4億画像テキストペアのオープンデータセット
- Authors: Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert
Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran
Komatsuzaki
- Abstract要約: 数億のイメージテキストペアでトレーニングされたマルチモーダル言語ビジョンモデルは、最近急増した。
このような傾向にもかかわらず、そのようなモデルをスクラッチからトレーニングするのに十分なスケールのデータセットは公開されていない。
私たちは、CLIPフィルタリングされた4億の画像テキストペア、CLIP埋め込み、効率的な類似性検索を可能にするkNNインデックスを備えたデータセットであるLAION-400Mの構築とリリースを行います。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal language-vision models trained on hundreds of millions of
image-text pairs (e.g. CLIP, DALL-E) gained a recent surge, showing remarkable
capability to perform zero- or few-shot learning and transfer even in absence
of per-sample labels on target image data. Despite this trend, to date there
has been no publicly available datasets of sufficient scale for training such
models from scratch. To address this issue, in a community effort we build and
release for public LAION-400M, a dataset with CLIP-filtered 400 million
image-text pairs, their CLIP embeddings and kNN indices that allow efficient
similarity search.
- Abstract(参考訳): 数億のイメージテキストペア(例えばCLIP、DALL-E)でトレーニングされたマルチモーダル言語ビジョンモデルは、最近急増し、ターゲット画像データにサンプルごとのラベルがなくても、ゼロまたは少数ショットの学習と転送を行う素晴らしい能力を示した。
この傾向にもかかわらず、これまでそのようなモデルをスクラッチからトレーニングするための十分なスケールのデータセットが公開されていない。
この問題に対処するため、コミュニティの取り組みとして、CLIPをフィルタした4億の画像テキストペア、CLIP埋め込み、効率的な類似検索を可能にするkNNインデックスを備えたデータセットであるLAION-400Mを開発しリリースしました。
関連論文リスト
- Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP [3.5999252362400993]
本研究では,視覚言語モデルが,属性オブジェクト対の新たな構成で画像の分類を成功させるかどうかを考察する。
その結果,OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットを用いてトレーニングしたCLIPは, 有効合成OoDの一般化において, オーダー・オブ・マグニチュードの改善を示すことがわかった。
本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T12:59:44Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z) - WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。
画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。
また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文 参考訳(メタデータ) (2022-03-22T06:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。