論文の概要: Learn Hard Problems During RL with Reference Guided Fine-tuning
- arxiv url: http://arxiv.org/abs/2603.01223v2
- Date: Thu, 05 Mar 2026 09:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.164798
- Title: Learn Hard Problems During RL with Reference Guided Fine-tuning
- Title(参考訳): 参照ファインチューニングによるRL中の難題の学習
- Authors: Yangzhen Wu, Shanda Li, Zixin Wen, Xin Zhou, Ameet Talwalkar, Yiming Yang, Wenhao Huang, Tianle Cai,
- Abstract要約: 数学的推論のための強化学習(RL)は報酬の分散に悩むことがある。
本稿では,Reference-Guided Fine-Tuning (ReGFT)を導入し,ハード問題に対する正の軌道を合成し,RLの前にトレーニングする。
以上の結果から,ReGFTは報酬空間を効果的に克服し,より強力なRLに基づく数学的推論を解き放つことが示唆された。
- 参考スコア(独自算出の注目度): 56.56461712665904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution. We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance. Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.
- Abstract(参考訳): 数学的推論のための強化学習(RL)は、報酬の分散に悩まされることがある: 挑戦的な問題に対して、LLMは正しい軌道のサンプリングに失敗し、RLが有意な肯定的なフィードバックを受けるのを防ぐ。
同時に、問題(例えば、AoPSの問題)とともに人間の記述による参照解が存在するが、これらの解を直接微調整することは、しばしば、モデルが自身の推論分布の外にある人間の証明を模倣することができないため、利益を得られない。
ReGFT(Reference-Guided Fine-Tuning, ReGFT)は, 人間の手書きによる参照解を用いて, ハード問題に対する正の軌道を合成し, RLの前にトレーニングする手法である。
それぞれの問題に対して、モデルに部分参照ソリューションを提供し、それ自身の推論トレースを生成し、結果の軌跡が参照ガイダンスの恩恵を受けながらモデルの推論空間に残ることを保証します。
これらの基準誘導軌道の微調整は解決可能な問題の数を増やし、RL中により肯定的な報酬を受けるチェックポイントを生成する。
3つのベンチマーク(AIME24、AIME25、BeyondAIME)で、ReGFTは教師付き精度を一貫して改善し、DAPOトレーニングを加速し、RLの最終的なパフォーマンス高原を高める。
以上の結果から,ReGFTは報酬空間を効果的に克服し,より強力なRLに基づく数学的推論を解き放つことが示唆された。
関連論文リスト
- POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration [78.9858758758376]
On-policy Reinforcement Learning (RL)は、単一の正しいロールアウトでさえも探索せず、報酬はゼロであり、改善を促進するための学習信号がない。
PPE(Privleged On-Policy Exploration)は、人間や他のオラクルのソリューションを特権情報として活用し、難しい問題の探索をガイドする手法である。
POPEは、オラクルソリューションのプレフィックスで難しい問題を強化し、ガイド付きロールアウト中にRLが非ゼロ報酬を得ることを可能にする。
論文 参考訳(メタデータ) (2026-01-26T18:47:21Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Local Coherence or Global Validity? Investigating RLVR Traces in Math Domains [13.626335241662977]
Reinforcement Learning with Verifiable Rewards (RLVR)-based post-training of Large Language Models (LLMs) は、推論タスクの精度を向上させることが示されている。
直接インセンティブのない中間トークンに対するRLポストトレーニングの効果について検討する。
論文 参考訳(メタデータ) (2025-10-20T23:58:31Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning [42.54530036364341]
まばらな報酬のある環境では、強化学習は軌道のサンプリングに苦労する。
我々は、RLとSFTを代替する統合トレーニングフレームワークであるSuperRLを紹介する。
実験により、スーパーRLは、サンプル効率の向上、一般化の強化、スパース報酬下での堅牢性の向上により、バニラRLを超えることが示された。
論文 参考訳(メタデータ) (2025-06-01T17:43:54Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。