論文の概要: DataComp: In search of the next generation of multimodal datasets
- arxiv url: http://arxiv.org/abs/2304.14108v5
- Date: Fri, 20 Oct 2023 17:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 12:24:48.648530
- Title: DataComp: In search of the next generation of multimodal datasets
- Title(参考訳): datacomp: 次世代のマルチモーダルデータセットの探索
- Authors: Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase,
Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh,
Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek
Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu,
Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner,
Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh,
Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt
- Abstract要約: DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
- 参考スコア(独自算出の注目度): 179.79323076587255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal datasets are a critical component in recent breakthroughs such as
Stable Diffusion and GPT-4, yet their design does not receive the same research
attention as model architectures or training algorithms. To address this
shortcoming in the ML ecosystem, we introduce DataComp, a testbed for dataset
experiments centered around a new candidate pool of 12.8 billion image-text
pairs from Common Crawl. Participants in our benchmark design new filtering
techniques or curate new data sources and then evaluate their new dataset by
running our standardized CLIP training code and testing the resulting model on
38 downstream test sets. Our benchmark consists of multiple compute scales
spanning four orders of magnitude, which enables the study of scaling trends
and makes the benchmark accessible to researchers with varying resources. Our
baseline experiments show that the DataComp workflow leads to better training
sets. In particular, our best baseline, DataComp-1B, enables training a CLIP
ViT-L/14 from scratch to 79.2% zero-shot accuracy on ImageNet, outperforming
OpenAI's CLIP ViT-L/14 by 3.7 percentage points while using the same training
procedure and compute. We release DataComp and all accompanying code at
www.datacomp.ai.
- Abstract(参考訳): マルチモーダルデータセットは、安定拡散やgpt-4のような最近のブレークスルーにおいて重要な要素であるが、その設計はモデルアーキテクチャやトレーニングアルゴリズムと同じ研究の注目を集めていない。
MLエコシステムにおけるこの欠点に対処するため、私たちは、Common Crawlから128億のイメージテキストペアの候補プールを中心としたデータセット実験用のテストベッドであるDataCompを紹介した。
ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットで結果モデルをテストすることで、新しいデータセットを評価します。
ベンチマークは4桁の計算スケールで構成されており、スケーリングトレンドの研究を可能にし、様々なリソースを持つ研究者がベンチマークを利用できるようにしている。
我々のベースライン実験は、DataCompのワークフローがより良いトレーニングセットをもたらすことを示している。
特に、最良のベースラインであるDataComp-1Bでは、ImageNet上でCLIP ViT-L/14をゼロショット精度79.2%までトレーニングすることが可能で、同じトレーニング手順と計算を使用して、OpenAIのCLIP ViT-L/14を3.7%上回っている。
DataComp と付随するコードはすべて www.datacomp.ai でリリースしています。
関連論文リスト
- Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning [56.795078085234195]
LLMプルーニングのアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとして、C4データセットに依存している。
本研究では, LLMプルーニングにおけるキャリブレーションデータの選択を, 幅広いデータセットで評価する。
私たちの結果は、微妙でしばしば予期せぬ発見もいくつか見つけました。
論文 参考訳(メタデータ) (2024-10-09T22:00:19Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning [19.100022935748225]
データ選択は、大規模ビジュアル言語モデル(例えば、CLIP)のコア問題として浮上した。
3つの主要なデータ選択アプローチは、(1)データ選択を支援するために外部のCLIPモデルを活用すること、(2)高品質なデータを選択するのにより効果的な新しいCLIPスタイルの埋め込みモデルをトレーニングすること、(3)より優れたメトリクスや戦略をCLIP埋め込みに普遍的に適用することである。
論文 参考訳(メタデータ) (2024-05-29T22:19:57Z) - Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies [27.809995478990544]
本稿では,CLIP(Contrastive Language-Image Pre-Training)の性能を,限られた計算予算にスケールダウンする際の性能について検討する。
高品質なデータのより小さなデータセットは、より低い品質のデータセットよりも優れていることを示す。
SLIP、FLIP、CLIP、CLIP+Data Augmentationという4つのCLIPトレーニング戦略を比較し、トレーニング戦略の選択が利用可能な計算リソースに依存することを示す。
論文 参考訳(メタデータ) (2024-04-12T02:04:34Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z) - Cross-Dataset Collaborative Learning for Semantic Segmentation [17.55660581677053]
我々は、Cross-Dataset Collaborative Learning (CDCL) と呼ばれる、単純で柔軟で汎用的なセマンティックセグメンテーション手法を提案する。
複数のラベル付きデータセットを付与することで、各データセット上の特徴表現の一般化と識別を改善することを目指しています。
単一データセットとクロスデータセットの設定で,Cityscapes,BDD100K,CamVid,COCO Stuffという4つの多様なデータセットに対して,広範な評価を行う。
論文 参考訳(メタデータ) (2021-03-21T09:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。