論文の概要: Reinforcement learning fine-tuning of language model for instruction following and math reasoning
- arxiv url: http://arxiv.org/abs/2506.21560v2
- Date: Sun, 27 Jul 2025 00:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.764439
- Title: Reinforcement learning fine-tuning of language model for instruction following and math reasoning
- Title(参考訳): 補足と算数推論のための言語モデルの強化学習による微調整
- Authors: Yifu Han, Geo Zhang,
- Abstract要約: コンパクト言語モデル(Qwen2.5-0.5Bベース)における強化学習手法の有効性について検討する。
本研究では, 教師付き微調整(SFT), 嗜好ラベル付きデータを用いた直接選好最適化(DPO), 報酬モデルによるReinforce Leave-One-Out(RLOO)を比較した。
実験により、DPOが強固で一貫した結果をもたらすのに対し、DeBERTaの報酬モデリングを用いたROOは最適なアライメントを実現することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the effectiveness of reinforcement learning (RL) fine-tuning techniques on a compact language model (Qwen2.5-0.5B Base) for two challenging tasks: instruction following and mathematical reasoning. We compare supervised fine-tuning (SFT), Direct Preference Optimization (DPO) using preference-labeled data, and Reinforce Leave-One-Out (RLOO) with reward models. Our experiments show that RLOO with DeBERTa reward modeling achieves the best alignment, while DPO provides strong and consistent results. For math reasoing tasks, synthetic data augmentation and best-of-N sampling with an external verifier significantly improve accuracy, showing the potential of combining fine-tuning with inference-time tools. This study highlights key trade-offs and practical strategies for training lightweight, task-aligned small-scale language models.
- Abstract(参考訳): 本研究では,強化学習 (RL) によるコンパクト言語モデル (Qwen2.5-0.5B Base) に対する微調整の有効性について検討した。
本研究では, 教師付き微調整(SFT), 嗜好ラベル付きデータを用いた直接選好最適化(DPO), 報酬モデルによるReinforce Leave-One-Out(RLOO)を比較した。
実験の結果,DPOが強固かつ一貫した結果をもたらすのに対し,DBERTa報酬モデリングを用いたROOは最適アライメントを実現することがわかった。
数学処理タスクでは、合成データ拡張と外部検証器によるベスト・オブ・Nサンプリングが精度を大幅に向上させ、微調整と推論時ツールの組み合わせの可能性を示した。
本研究は,タスク整合型小規模言語モデルを訓練するための重要なトレードオフと実践的戦略を明らかにする。
関連論文リスト
- Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - Dual-Weighted Reinforcement Learning for Generative Preference Modeling [61.443461640955796]
本稿では,2重強化学習(DWRL)を嗜好モデリングの新しいフレームワークとして提案する。
本稿では、DWRLを生成的嗜好モデル(GPM)を訓練して嗜好モデルに適用し、まず思考を生成し、それから人間の選好スコアを予測する。
その結果、DWRLは、検証可能なタスク以上の推論強化された選好学習の一般的なフレームワークとして位置づけられた。
論文 参考訳(メタデータ) (2025-10-17T02:14:24Z) - Tool-Augmented Policy Optimization: Synergizing Reasoning and Adaptive Tool Use with Reinforcement Learning [29.280386584974455]
大規模言語モデル(LLM)の最近の進歩はテスト時間スケーリングを普及させ、モデルが最終回答を生成する前にさらなる推論トークンを生成する。
これらの手法は、数学的推論を含むベンチマークにおいて顕著な性能向上を示した。
本稿では,マルチホップ推論と適応型ツールコール機能を統合した新しい強化学習フレームワークであるツール拡張ポリシー最適化(TAPO)を提案する。
論文 参考訳(メタデータ) (2025-10-08T14:04:27Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Post-Completion Learning for Language Models [20.589364712188015]
現在の言語モデルトレーニングパラダイムは、エンド・オブ・シーケンス(eos>)トークンに到達して学習を終了する。
モデル出力完了後のシーケンス空間を体系的に活用する新しい学習フレームワークであるポストコンプリート学習(PCL)を提案する。
PCLは、学習中の自己評価と報奨予測を継続し、完了点に停止することで効率的な推論を維持する。
論文 参考訳(メタデータ) (2025-07-27T12:47:26Z) - EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。
EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文 参考訳(メタデータ) (2025-06-04T02:11:54Z) - Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning [93.30252692375886]
ルールベースの強化学習は、大きな言語モデルにおけるツールコールを強化するために使用することができる。
ツールN1-7B/14Bはいくつかの主要なベンチマークでGPT-4oを上回った。
論文 参考訳(メタデータ) (2025-04-25T02:55:21Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [39.65877861652369]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on
Chinese Instruction Data for Instruction Following Large Language Model [8.21938165599387]
基礎モデルの選択、トレーニングデータセットのスケール、学習可能なパラメータ量、モデルのトレーニングコストは、すべて重要な要素である。
論文の結果の再現を容易にするため、データセット、モデル、コードを公開します。
論文 参考訳(メタデータ) (2023-04-17T09:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。