論文の概要: The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data
Filtering
- arxiv url: http://arxiv.org/abs/2309.15954v1
- Date: Wed, 27 Sep 2023 19:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 19:07:25.662010
- Title: The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data
Filtering
- Title(参考訳): The Devil is in the details: A Deep Dive into the Rabbit Hole of Data Filtering
- Authors: Haichao Yu, Yu Tian, Sateesh Kumar, Linjie Yang, Heng Wang
- Abstract要約: 本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。
我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。
提案手法は,3つのタスクの平均的なパフォーマンスに対して4%以上,ImageNetでは2%以上,DataComp論文のベストメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 23.68112988933411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of pre-training data plays a critical role in the performance of
foundation models. Popular foundation models often design their own recipe for
data filtering, which makes it hard to analyze and compare different data
filtering approaches. DataComp is a new benchmark dedicated to evaluating
different methods for data filtering. This paper describes our learning and
solution when participating in the DataComp challenge. Our filtering strategy
includes three stages: single-modality filtering, cross-modality filtering, and
data distribution alignment. We integrate existing methods and propose new
solutions, such as computing CLIP score on horizontally flipped images to
mitigate the interference of scene text, using vision and language models to
retrieve training samples for target downstream tasks, rebalancing the data
distribution to improve the efficiency of allocating the computational budget,
etc. We slice and dice our design choices, provide in-depth analysis, and
discuss open questions. Our approach outperforms the best method from the
DataComp paper by over 4% on the average performance of 38 tasks and by over 2%
on ImageNet.
- Abstract(参考訳): 事前学習データの質は基礎モデルの性能において重要な役割を果たす。
一般的なファウンデーションモデルは、データフィルタリングのための独自のレシピを設計することが多いため、さまざまなデータフィルタリングアプローチの分析と比較が難しい。
DataCompは、データフィルタリングのさまざまな方法を評価するための新しいベンチマークである。
本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。
我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。
既存の手法を統合し,シーンテキストの干渉を軽減するためにクリップスコアを水平反転画像に計算し,視覚モデルと言語モデルを用いて目標下流タスクのトレーニングサンプルを検索し,データ分布のバランスを調整し,計算予算の割り当て効率を向上させるなど,新たなソリューションを提案する。
デザインの選択をスライスし、詳細に分析し、オープン質問を議論します。
提案手法は,38タスクの平均性能では4%以上,imagenetでは2%以上,datacomp paperより優れた手法である。
関連論文リスト
- HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。
HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。
このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2024-04-26T16:19:55Z) - From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [19.070305201045954]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。
構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。
我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文 参考訳(メタデータ) (2024-04-16T05:29:14Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Leveraging Image-Text Similarity and Caption Modification for the
DataComp Challenge: Filtering Track and BYOD Track [9.474587055642312]
本稿では,DataComp チャレンジにおけるフィルタリングトラックと BYOD トラックの両方に対するソリューションを提案する。
提案ソリューションでは,大規模なマルチモーダルモデルCLIPとBLIP-2を用いてWebクローラーデータのフィルタリングと修正を行い,外部データセットとトリックの袋を併用してデータ品質を向上させる。
論文 参考訳(メタデータ) (2023-10-23T05:40:43Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - CNN Filter DB: An Empirical Investigation of Trained Convolutional
Filters [2.0305676256390934]
モデル事前学習は、サイズと分散条件を満たす場合、任意のデータセットで成功することを示す。
事前学習された多くのモデルには、劣化したフィルタが含まれており、それによって、より堅牢で、ターゲットアプリケーションの微調整に適さないことが示される。
論文 参考訳(メタデータ) (2022-03-29T08:25:42Z) - An Empirical Investigation of Model-to-Model Distribution Shifts in
Trained Convolutional Filters [2.0305676256390934]
本稿では,様々なコンピュータビジョンタスクに使用される画像データの分布変化について検討した結果について述べる。
元のトレーニングデータやテストデータを解析する代わりに、訓練されたモデルの学習重量の変化を研究することを提案する。
論文 参考訳(メタデータ) (2022-01-20T21:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。