論文の概要: RL-Guided Data Selection for Language Model Finetuning
- arxiv url: http://arxiv.org/abs/2509.25850v1
- Date: Tue, 30 Sep 2025 06:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.04623
- Title: RL-Guided Data Selection for Language Model Finetuning
- Title(参考訳): 言語モデルファインタニングのためのRL-Guided Data Selection
- Authors: Animesh Jha, Harshit Gupta, Ananjan Nandi,
- Abstract要約: 本稿では,多種多様な強化学習(RL)手法を用いて,最適データ選択ポリシーを学習するためのトラクタブルマルコフ決定プロセス(MDP)と訓練エージェントを提案する。
4つのデータセットにまたがって、アプローチが選択した5%$サブセットのトレーニングは、データセット全体の微調整を最大10.8$の精度ポイントで上回る。
- 参考スコア(独自算出の注目度): 3.477926761611361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data selection for finetuning Large Language Models (LLMs) can be framed as a budget-constrained optimization problem: maximizing a model's downstream performance under a strict training data budget. Solving this problem is generally intractable, and existing approximate approaches are pretraining-oriented and transfer poorly to the fine-tuning setting. We reformulate this problem as a tractable Markov Decision Process (MDP) and train agents using various Reinforcement Learning (RL) methods to learn optimal data selection policies, guided by an efficient, proxy-model-based reward signal. Across four datasets, training on a $5\%$ subset selected by our approach matches or outperforms fine-tuning on the full dataset by up to $10.8$ accuracy points, while cutting wall-clock training time by up to $2 \times$, highlighting the promise of RL-guided data selection.
- Abstract(参考訳): 大規模言語モデル(LLM)の微調整のためのデータ選択は、予算制約のある最適化問題として、厳格なトレーニングデータ予算の下で、モデル下流のパフォーマンスを最大化する。
この問題の解法は一般に難解であり、既存の近似的アプローチは事前学習指向であり、微調整設定への伝達が不十分である。
本稿では,この問題をMDP (Ttractable Markov Decision Process) と,RL (Reinforcement Learning) 手法を用いて,効率的なプロキシモデルに基づく報酬信号によって導かれる最適なデータ選択ポリシーを学習する列車エージェントとして再構成する。
4つのデータセットにわたって、我々のアプローチによって選択された5\%のサブセットでのトレーニングは、最大10.8$の精度ポイントでデータセットの微調整を実行し、ウォールクロックのトレーニング時間を最大2 \times$に削減し、RL誘導データ選択の約束を強調する。
関連論文リスト
- LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。
計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - TSDS: Data Selection for Task-Specific Model Finetuning [39.19448080265558]
タスク固有の微調整の有効性は、適切なトレーニングデータの選択に大きく依存する。
本稿では,タスク固有のモデル微調整のためのデータ選択フレームワークであるTSDS(Task-Specific Data Selection)を提案する。
提案手法で選択したデータを用いて,1%選択率で命令チューニングを行う場合,全データセットで処理性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-15T05:54:17Z) - Data Selection via Optimal Control for Language Models [134.67665351539725]
本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。
PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。
PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
論文 参考訳(メタデータ) (2024-10-09T17:06:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。