論文の概要: ZIP-FIT: Embedding-Free Data Selection via Compression-Based Alignment
- arxiv url: http://arxiv.org/abs/2410.18194v1
- Date: Wed, 23 Oct 2024 18:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:55.789446
- Title: ZIP-FIT: Embedding-Free Data Selection via Compression-Based Alignment
- Title(参考訳): ZIP-FIT:圧縮に基づくアライメントによる埋め込み自由データ選択
- Authors: Elyas Obbad, Iddah Mlauzi, Brando Miranda, Rylan Schaeffer, Kamal Obbad, Suhana Bedi, Sanmi Koyejo,
- Abstract要約: ZIP-FITは、gzip圧縮を使用して、潜在的なトレーニングデータとターゲットタスク分布のアライメントを測定するデータ選択フレームワークである。
ZIP-FIT選択データに基づいてトレーニングされたモデルは、ベースラインよりも85.1%高速なクロスエントロピー損失を達成する。
ZIP-FITは、小さく、よく整合したデータセットが、より大きながターゲットの少ないデータセットよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 13.303577263109858
- License:
- Abstract: Data selection is crucial for optimizing language model (LM) performance on specific tasks, yet most existing methods fail to effectively consider the target task distribution. Current approaches either ignore task-specific requirements entirely or rely on approximations that fail to capture the nuanced patterns needed for tasks like Autoformalization or code generation. Methods that do consider the target distribution often rely on simplistic, sometimes noisy, representations, like hashed n-gram features, which can lead to collisions and introduce noise. We introduce ZIP-FIT, a data selection framework that uses gzip compression to directly measure alignment between potential training data and the target task distribution. In extensive evaluations on Autoformalization and Python code generation, ZIP-FIT significantly outperforms leading baselines like DSIR and D4. Models trained on ZIP-FIT-selected data achieve their lowest cross-entropy loss up to 85.1\% faster than baselines, demonstrating that better task alignment leads to more efficient learning. In addition, ZIP-FIT performs selection up to 65.8\% faster than DSIR and two orders of magnitude faster than D4. Notably, ZIP-FIT shows that smaller, well-aligned datasets often outperform larger but less targeted ones, demonstrating that a small amount of higher quality data is superior to a large amount of lower quality data. Our results imply that task-aware data selection is crucial for efficient domain adaptation, and that compression offers a principled way to measure task alignment. By showing that targeted data selection can dramatically improve task-specific performance, our work provides new insights into the relationship between data quality, task alignment, and model learning efficiency.
- Abstract(参考訳): データの選択は特定のタスク上での言語モデル(LM)のパフォーマンスを最適化するために重要であるが、既存のほとんどのメソッドは目的のタスク分布を効果的に考慮できない。
現在のアプローチでは、タスク固有の要件を完全に無視するか、あるいはAutoformalizationやコード生成のようなタスクに必要なニュアンスパターンをキャプチャできない近似に依存している。
対象の分布を考える方法は、しばしば単純で時にノイズの多い、hash n-gramのような表現に依存し、衝突やノイズを引き起こす。
本稿では,gzip圧縮を用いたデータ選択フレームワークであるZIP-FITを導入する。
オートフォーマライゼーションとPythonコード生成に関する広範な評価において、ZIP-FITはDSIRやD4のような主要なベースラインを著しく上回っている。
ZIP-FIT選択データに基づいてトレーニングされたモデルは、ベースラインよりも85.1\%の低いクロスエントロピー損失を達成し、より良いタスクアライメントがより効率的な学習をもたらすことを示した。
さらに、ZIP-FITはDSIRよりも65.8倍高速で、D4より2桁高速である。
特に、ZIP-FITは、より小さく、整列したデータセットは、しばしばより大きく、よりターゲットの少ないデータセットより優れており、少量の高品質データが大量の低品質データよりも優れていることを示している。
この結果から,タスク対応データ選択はドメイン適応の効率化に不可欠であり,圧縮はタスクアライメントを測定するための原則的方法であることが示された。
目標とするデータ選択がタスク固有のパフォーマンスを劇的に向上させることで、データ品質、タスクアライメント、モデル学習効率の関係に関する新たな洞察を提供する。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Visual Prompt Tuning for Test-time Domain Adaptation [48.16620171809511]
本稿では,2つの重要な要素を持つデータ効率・プロンプト・チューニング(DePT)と呼ばれる簡単なレシピを提案する。
このようなパラメータ効率の良い微調整は,学習対象の雑音に過度に適応することなく,モデル表現を対象領域に効率よく適応させることができる。
パラメータがはるかに少ないため、DePTは主要な適応ベンチマークにおける最先端のパフォーマンスだけでなく、優れたデータ効率を示す。
論文 参考訳(メタデータ) (2022-10-10T16:45:13Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。