論文の概要: Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities
- arxiv url: http://arxiv.org/abs/2501.12147v1
- Date: Tue, 21 Jan 2025 14:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:27.644818
- Title: Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities
- Title(参考訳): 相互能力のバランス学習のためのインフルエンスベースインストラクションチューニングデータ選択の改善
- Authors: Qirun Dai, Dylan Zhang, Jiaqi W. Ma, Hao Peng,
- Abstract要約: 影響に基づく手法は,(1)モデルの予測に対する各トレーニング例の貢献を推定することで,(1)達成の約束を示すが,(2)に苦慮することが多い。
系統的な調査により、この過小評価は、特定のタスクが本質的に他のタスクよりも大きな影響を持つ固有のバイアスに起因することが判明した。
その結果、データ選択は、しばしばこれらのタスクに偏りがあり、モデルの性能を害するだけでなく、非意図的に、これらの高影響タスク自体のパフォーマンスを損なう。
- 参考スコア(独自算出の注目度): 15.92881751491451
- License:
- Abstract: Selecting appropriate training data is crucial for effective instruction fine-tuning of large language models (LLMs), which aims to (1) elicit strong capabilities, and (2) achieve balanced performance across a diverse range of tasks. Influence-based methods show promise in achieving (1) by estimating the contribution of each training example to the model's predictions, but often struggle with (2). Our systematic investigation reveals that this underperformance can be attributed to an inherent bias where certain tasks intrinsically have greater influence than others. As a result, data selection is often biased towards these tasks, not only hurting the model's performance on others but also, counterintuitively, harms performance on these high-influence tasks themselves. As a remedy, we propose BIDS, a Balanced and Influential Data Selection algorithm. BIDS first normalizes influence scores of the training data, and then iteratively balances data selection by choosing the training example with the highest influence on the most underrepresented task. Experiments with both Llama-3 and Mistral-v0.3 on seven benchmarks spanning five diverse capabilities show that BIDS consistently outperforms both state-of-the-art influence-based algorithms and other non-influence-based selection frameworks. Surprisingly, training on a 15% subset selected by BIDS can even outperform full-dataset training with a much more balanced performance. Our analysis further highlights the importance of both instance-level normalization and iterative optimization of selected data for balanced learning of diverse capabilities.
- Abstract(参考訳): 適切なトレーニングデータを選択することは,(1)強機能を引き出すこと,(2)多様なタスクにまたがるバランスの取れたパフォーマンスを実現することを目的とした,大規模言語モデル(LLM)の効果的なインストラクション微調整に不可欠である。
影響に基づく手法は,(1)モデルの予測に対する各トレーニング例の貢献を推定することで,(1)達成の約束を示すが,(2)に苦慮することが多い。
系統的な調査により、この過小評価は、特定のタスクが本質的に他のタスクよりも大きな影響を持つ固有のバイアスに起因することが判明した。
その結果、データ選択は、しばしばこれらのタスクに偏りがあり、モデルの性能を害するだけでなく、非意図的に、これらの高影響タスク自体のパフォーマンスを損なう。
本稿では,バランスとインフルエンシャルなデータ選択アルゴリズムであるBIDSを提案する。
BIDSは、まず、トレーニングデータの影響スコアを正規化し、次に、最も不足しているタスクに最も影響の大きいトレーニング例を選択して、反復的にデータ選択のバランスをとる。
Llama-3とMistral-v0.3の5つの機能にまたがる7つのベンチマークによる実験は、BIDSが最先端のインフルエンスベースのアルゴリズムと他の非影響ベースの選択フレームワークを一貫して上回っていることを示している。
驚いたことに、BIDSが選択した15%のサブセットでのトレーニングは、よりバランスの取れたパフォーマンスで、フルデータセットのトレーニングよりも優れています。
我々の分析は、多様な能力のバランス学習のために、インスタンスレベルの正規化と選択したデータの反復最適化の両方の重要性をさらに強調する。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - G-DIG: Towards Gradient-based Diverse and High-quality Instruction Data Selection for Machine Translation [21.506844286376275]
本稿では,機械翻訳のための高品質かつ多様な命令微調整データを自動的に選択する,勾配に基づく新しい手法を提案する。
私たちの重要なイノベーションは、個々のトレーニング例がトレーニング中にモデルにどのように影響するかを分析することです。
論文 参考訳(メタデータ) (2024-05-21T16:38:13Z) - Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。
他の選択戦略との比較は、QaDSの優位性を検証する。
OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文 参考訳(メタデータ) (2024-04-01T12:01:06Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。