論文の概要: RL-Guided Data Selection for Language Model Finetuning
- arxiv url: http://arxiv.org/abs/2509.25850v1
- Date: Tue, 30 Sep 2025 06:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.04623
- Title: RL-Guided Data Selection for Language Model Finetuning
- Title(参考訳): 言語モデルファインタニングのためのRL-Guided Data Selection
- Authors: Animesh Jha, Harshit Gupta, Ananjan Nandi,
- Abstract要約: 本稿では,多種多様な強化学習(RL)手法を用いて,最適データ選択ポリシーを学習するためのトラクタブルマルコフ決定プロセス(MDP)と訓練エージェントを提案する。
4つのデータセットにまたがって、アプローチが選択した5%$サブセットのトレーニングは、データセット全体の微調整を最大10.8$の精度ポイントで上回る。
- 参考スコア(独自算出の注目度): 3.477926761611361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data selection for finetuning Large Language Models (LLMs) can be framed as a budget-constrained optimization problem: maximizing a model's downstream performance under a strict training data budget. Solving this problem is generally intractable, and existing approximate approaches are pretraining-oriented and transfer poorly to the fine-tuning setting. We reformulate this problem as a tractable Markov Decision Process (MDP) and train agents using various Reinforcement Learning (RL) methods to learn optimal data selection policies, guided by an efficient, proxy-model-based reward signal. Across four datasets, training on a $5\%$ subset selected by our approach matches or outperforms fine-tuning on the full dataset by up to $10.8$ accuracy points, while cutting wall-clock training time by up to $2 \times$, highlighting the promise of RL-guided data selection.
- Abstract(参考訳): 大規模言語モデル(LLM)の微調整のためのデータ選択は、予算制約のある最適化問題として、厳格なトレーニングデータ予算の下で、モデル下流のパフォーマンスを最大化する。
この問題の解法は一般に難解であり、既存の近似的アプローチは事前学習指向であり、微調整設定への伝達が不十分である。
本稿では,この問題をMDP (Ttractable Markov Decision Process) と,RL (Reinforcement Learning) 手法を用いて,効率的なプロキシモデルに基づく報酬信号によって導かれる最適なデータ選択ポリシーを学習する列車エージェントとして再構成する。
4つのデータセットにわたって、我々のアプローチによって選択された5\%のサブセットでのトレーニングは、最大10.8$の精度ポイントでデータセットの微調整を実行し、ウォールクロックのトレーニング時間を最大2 \times$に削減し、RL誘導データ選択の約束を強調する。
関連論文リスト
- Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。
計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。