論文の概要: Efficient Data Selection at Scale via Influence Distillation
- arxiv url: http://arxiv.org/abs/2505.19051v1
- Date: Sun, 25 May 2025 09:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.864655
- Title: Efficient Data Selection at Scale via Influence Distillation
- Title(参考訳): 影響蒸留による大規模データ選択の効率化
- Authors: Mahdi Nikdan, Vincent Cohen-Addad, Dan Alistarh, Vahab Mirrokni,
- Abstract要約: 本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。
対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。
実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
- 参考スコア(独自算出の注目度): 53.03573620682107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective data selection is critical for efficient training of modern Large Language Models (LLMs). This paper introduces Influence Distillation, a novel, mathematically-justified framework for data selection that employs second-order information to optimally weight training samples. By distilling each sample's influence on a target distribution, our method assigns model-specific weights that are used to select training data for LLM fine-tuning, guiding it toward strong performance on the target domain. We derive these optimal weights for both Gradient Descent and Adam optimizers. To ensure scalability and reduce computational cost, we propose a $\textit{landmark-based approximation}$: influence is precisely computed for a small subset of "landmark" samples and then efficiently propagated to all other samples to determine their weights. We validate Influence Distillation by applying it to instruction tuning on the Tulu V2 dataset, targeting a range of tasks including GSM8k, SQuAD, and MMLU, across several models from the Llama and Qwen families. Experiments show that Influence Distillation matches or outperforms state-of-the-art performance while achieving up to $3.5\times$ faster selection.
- Abstract(参考訳): 効率的なデータ選択は、現代の大規模言語モデル(LLM)の効率的な訓練に不可欠である。
本稿では,2次情報を用いてトレーニングサンプルを最適に重み付けするデータ選択のための,数学的に最適化された新しいフレームワークであるインフルエンス蒸留について紹介する。
本手法は, 各試料の目標分布への影響を蒸留することにより, LLM微調整のためのトレーニングデータの選択に使用するモデル固有の重みを割り当て, 目標領域上での強い性能に向けて誘導する。
グラディエント・ディクセントとアダム・オプティマイザの両方に最適な重みを導出する。
スケーラビリティを確保し、計算コストを削減するために、$\textit{landmark-based approximation}$: 影響は「ランドマーク」サンプルの小さなサブセットに対して正確に計算され、その重みを決定するために他のすべてのサンプルに効率的に伝播される。
GSM8k, SQuAD, MMLUなどのタスクをLlamaファミリーとQwenファミリーのモデルで対象とし, Tulu V2データセットのインフルエンスチューニングに適用し, インフルエンス蒸留の有効性を検証した。
実験によると、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5\times$高速選択を実現している。
関連論文リスト
- Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities [15.92881751491451]
影響に基づく手法は,(1)モデルの予測に対する各トレーニング例の貢献を推定することで,(1)達成の約束を示すが,(2)に苦慮することが多い。
系統的な調査により、この過小評価は、特定のタスクが本質的に他のタスクよりも大きな影響を持つ固有のバイアスに起因することが判明した。
その結果、データ選択は、しばしばこれらのタスクに偏りがあり、モデルの性能を害するだけでなく、非意図的に、これらの高影響タスク自体のパフォーマンスを損なう。
論文 参考訳(メタデータ) (2025-01-21T14:00:43Z) - ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [29.001249598245]
Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。
ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文 参考訳(メタデータ) (2024-12-01T01:01:09Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。