論文の概要: Offline Exploration-Aware Fine-Tuning for Long-Chain Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2603.16206v1
- Date: Tue, 17 Mar 2026 07:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.151007
- Title: Offline Exploration-Aware Fine-Tuning for Long-Chain Mathematical Reasoning
- Title(参考訳): オフライン探索による長鎖数理推論のためのファインチューニング
- Authors: Yongyu Mu, Jiali Zeng, Fandong Meng, JingBo Zhu, Tong Xiao,
- Abstract要約: 検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの数学的推論能力を大幅に向上させた。
既存の研究は主にRLVRトレーニング中の探索の促進に重点を置いており、調査対象の微調整を監督している。
そこで我々は,教師の自己蒸留データに対する信頼度を低く抑えるために,Offline eXploration-Aware (OXA) ファインチューニングを提案する。
- 参考スコア(独自算出の注目度): 80.34372449504184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Through encouraging self-exploration, reinforcement learning from verifiable rewards (RLVR) has significantly advanced the mathematical reasoning capabilities of large language models. As the starting point for RLVR, the capacity of supervised fine-tuning (SFT) to memorize new chain-of-thought trajectories provides a crucial initialization that shapes the subsequent exploration landscape. However, existing research primarily focuses on facilitating exploration during RLVR training, leaving exploration-aware SFT under-explored. To bridge this gap, we propose Offline eXploration-Aware (OXA) fine-tuning. Specifically, OXA optimizes two objectives: promoting low-confidence verified teacher-distillation data to internalize previously uncaptured reasoning patterns, and suppressing high-confidence incorrect self-distillation data to redistribute probability mass of incorrect patterns toward potentially correct candidates. Experimental results across 6 benchmarks show that OXA consistently improves mathematical reasoning performance, especially achieving an average gain of $+6$ Pass@1 and $+5$ Pass@$k$ points compared to conventional SFT on the Qwen2.5-1.5B-Math. Crucially, OXA elevates initial policy entropy, and performance gains persist throughout extensive RLVR training, demonstrating the long-term value of OXA.
- Abstract(参考訳): 自己探索を促進することによって、検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの数学的推論能力を大幅に向上させた。
RLVRの出発点として、新しい連鎖軌道を記憶するための監督された微調整(SFT)能力は、その後の探検風景を形作る重要な初期化をもたらす。
しかし、既存の研究は主にRLVRトレーニングにおける探索の促進に焦点が当てられており、探査を意識したSFTは未探索のままである。
このギャップを埋めるため,Offline eXploration-Aware (OXA)ファインチューニングを提案する。
特に, OXAは, 低信頼度検証された教師蒸留データを促進し, 未捕獲の推論パターンを内部化し, 高信頼度不正確な自己蒸留データを抑制し, 不正確なパターンの確率質量を再抽出する2つの目的を最適化する。
特にQwen2.5-1.5B-Mathの従来のSFTと比較して、平均$+6$ Pass@1と$+5$ Pass@$k$ポイントを達成している。
重要なことは、OXAは初期ポリシーのエントロピーを増大させ、広範なRLVRトレーニングを通じてパフォーマンスの向上を継続し、OXAの長期的価値を示す。
関連論文リスト
- How Far Can Unsupervised RLVR Scale LLM Training? [57.44753418846446]
検証可能な報酬を伴う教師なし強化学習(URLVR)は、監督ボトルネックを越えてLLMトレーニングをスケールするための経路を提供する。
最近の研究は、モデル固有の信号を活用し、期待できる早期の利得を示しているが、その可能性と限界は未だ不明である。
我々は、URLVRメソッドを報酬源に基づく固有対外部に分類し、統一された理論的枠組みを確立する。
論文 参考訳(メタデータ) (2026-03-09T17:38:11Z) - SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans [65.19021035010059]
リサーチエージェントは、ユーザークエリに回答するツールを使用して、モデルがWebから情報を集めることができる。
エージェントは、未熟期の終了やツール使用の偏りなど、探索行動に乏しいことが多いことを観察する。
より深い探索を促進するためのツール利用軌跡を合成するフレームワークであるSynPlanResearch-R1を提案する。
論文 参考訳(メタデータ) (2026-03-09T00:05:29Z) - On the Learning Dynamics of RLVR at the Edge of Competence [86.52481827737097]
検証可能な報酬(RLVR)による強化学習は、大規模な推論モデルにおける最近のブレークスルーの主要な要因である。
コンポジション推論タスクにおける変圧器のRLのトレーニング力学の理論を開発する。
論文 参考訳(メタデータ) (2026-02-16T16:03:08Z) - ASTER: Agentic Scaling with Tool-integrated Extended Reasoning [27.877412657068806]
強化学習(Reinforcement Learning, RL)は,大規模言語モデル(LLM)における長軸推論の主流パラダイムとして登場した。
ASTER(Agentic Scaling with Tool-integrated Extended Reasoning)は,コールドスタート戦略を通じて,この崩壊を回避するフレームワークである。
ほんの4Kのインタラクション・ディエンス・トラジェクトリの,小規模な専門家によるコールドスタートセットが,ダウンストリームのパフォーマンスを最強に向上させることがわかった。
論文 参考訳(メタデータ) (2026-02-01T12:46:02Z) - Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards [13.064343544668283]
MR-RLVR(Masked-and-Reordered RLVR)を提案する。
MR-RLVRをQwen2.5-3BとDeepSeek-R1-Distill-Qwen-1.5Bで実装し,AIME24,AIME25,AMC23,MATH500で評価した。
論文 参考訳(メタデータ) (2025-11-21T18:23:04Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。