論文の概要: Data Filtering Networks
- arxiv url: http://arxiv.org/abs/2309.17425v3
- Date: Mon, 6 Nov 2023 02:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:35:22.588750
- Title: Data Filtering Networks
- Title(参考訳): データフィルタリングネットワーク
- Authors: Alex Fang, Albin Madappally Jose, Amit Jain, Ludwig Schmidt, Alexander
Toshev, Vaishaal Shankar
- Abstract要約: 本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
- 参考スコア(独自算出の注目度): 67.827994353269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large training sets have become a cornerstone of machine learning and are the
foundation for recent advances in language modeling and multimodal learning.
While data curation for pre-training is often still ad-hoc, one common paradigm
is to first collect a massive pool of data from the Web and then filter this
candidate pool down to an actual training set via various heuristics. In this
work, we study the problem of learning a data filtering network (DFN) for this
second step of filtering a large uncurated dataset. Our key finding is that the
quality of a network for filtering is distinct from its performance on
downstream tasks: for instance, a model that performs well on ImageNet can
yield worse training sets than a model with low ImageNet accuracy that is
trained on a small amount of high-quality data. Based on our insights, we
construct new data filtering networks that induce state-of-the-art image-text
datasets. Specifically, our best performing dataset DFN-5B enables us to train
state-of-the-art CLIP models for their compute budgets: among other
improvements on a variety of tasks, a ViT-H trained on our dataset achieves
84.4% zero-shot transfer accuracy on ImageNet, out-performing models trained on
other datasets such as LAION-2B, DataComp-1B, or OpenAI's WIT. In order to
facilitate further research in dataset design, we also release a new 2 billion
example dataset DFN-2B and show that high performance data filtering networks
can be trained from scratch using only publicly available data.
- Abstract(参考訳): 大規模なトレーニングセットは機械学習の基盤となり、言語モデリングとマルチモーダル学習の最近の進歩の基礎となっている。
事前トレーニングのためのデータキュレーションは、しばしばアドホックであるが、一般的なパラダイムの一つは、まずWebから大量のデータを収集し、この候補プールを様々なヒューリスティックを通して実際のトレーニングセットにフィルタリングすることである。
本研究では,データフィルタリングネットワーク(dfn)を学習する問題を,大規模な未計算データセットをフィルタリングする第2段階として検討する。
例えば、ImageNetでよく機能するモデルでは、少量の高品質なデータに基づいてトレーニングされるImageNetの精度が低いモデルよりも、トレーニングセットが悪くなります。
この知見に基づいて,最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
さまざまなタスクにおいて、トレーニングされたvit-hは、imagenet上で84.4%のゼロショット転送精度を達成し、laion-2b、datacomp-1b、openaiのwitなど、他のデータセットでトレーニングされたパフォーマンスよりも優れています。
データセット設計のさらなる研究を促進するため、新たに20億のサンプルデータセットDFN-2Bをリリースし、公開データのみを使用して、高速なデータフィルタリングネットワークをゼロからトレーニング可能であることを示す。
関連論文リスト
- When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。