論文の概要: FABSVer: Faster Training and Better Self-Verification for LLM Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2605.28389v1
- Date: Wed, 27 May 2026 12:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.04229
- Title: FABSVer: Faster Training and Better Self-Verification for LLM Mathematical Reasoning
- Title(参考訳): FABSVer: LLM数学的推論のための高速トレーニングとより良い自己検証
- Authors: Haihui Pan, Junwei Bao, Hongfei Jiang, Yang Song,
- Abstract要約: 自己検証モデルを備えた既存のアプローチは、解の生成と検証を2つの別々のタスクとして扱うのが一般的である。
本稿では,この2つのタスクを1世代パスに融合するFABSVerを提案する。
FABSVerは3つのモデルスケールで優れた自己検証と推論性能を実現する。
- 参考スコア(独自算出の注目度): 8.96133612398978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models have made significant progress in mathematical reasoning, they remain unreliable at judging the correctness of their own solutions. Existing approaches that equip models with self-verification typically treat solution generation and verification as two separate tasks, leading to substantially increased training time. In this paper, we propose FABSVer, which fuses these two tasks into a single generation pass, dramatically reducing training overhead while jointly optimizing both capabilities. We further identify a convergence bottleneck both theoretically and empirically: as training progresses, the reward reaches a plateau because the policy is constrained by a fixed reference model. To overcome this, we introduce Dynamic Reference Model Update (DRMU), which raises the reward ceiling and enables sustained reward growth. Extensive experiments on math benchmarks demonstrate that FABSVer achieves superior self-verification and reasoning performance across three model scales, while requiring only 51%--71% of the training time of existing methods. Analysis further reveals distinct learning phases in how models acquire self-verification, and that the gap between verify and answer rewards shrinks noticeably as model size increases.
- Abstract(参考訳): 大規模言語モデルは数学的推論において大きな進歩を遂げてきたが、それらは自身の解の正しさを判断する上で信頼できないままである。
自己検証モデルを備えた既存のアプローチは、ソリューション生成と検証を2つの別々のタスクとして扱うのが一般的であり、トレーニング時間が大幅に増加する。
本稿では,これら2つのタスクをひとつの世代パスに融合させ,両機能を共同で最適化しながら,トレーニングオーバーヘッドを劇的に低減するFABSVerを提案する。
さらに,理論的にも経験的にも収束ボトルネックを同定する:訓練が進むにつれて,報酬は一定基準モデルによって制約されるため,高原に達する。
これを解決するために、報酬上限を高め、持続的な報酬成長を可能にするDynamic Reference Model Update (DRMU)を導入する。
FABSVerは3つのモデルスケールで優れた自己検証と推論性能を達成でき、既存の手法のトレーニング時間の51%から71%しか必要としない。
分析により、モデルが自己検証を取得する方法の異なる学習フェーズが明らかになり、検証と回答の報酬のギャップはモデルのサイズが大きくなるにつれて顕著に縮小する。
関連論文リスト
- On Predicting the Post-training Potential of Pre-trained LLMs [60.07459271263409]
本稿では,ポストトレーニング前のベースモデルの性能予測という,ポストトレーニング後の潜在能力を予測するための新しいタスクを紹介する。
本稿では,応答判別を活用することで,ベースモデルの生成ギャップを回避できる統一フレームワークであるRuDEを提案する。
実験では、トレーニング後のパフォーマンスと90%以上の相関を示す。
論文 参考訳(メタデータ) (2026-05-12T11:33:49Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Balanced Actor Initialization: Stable RLHF Training of Distillation-Based Reasoning Models [27.0496567592082]
大規模言語モデルにおけるアライメントと推論能力の開発は目覚ましい進歩を遂げた。
RLHFを蒸留訓練モデルに適用する第3のパラダイムは、重大な課題を示す。
本稿では,2段階重み付きモデルマージ手法であるBa balanced Actor Initialization (BAI)を提案する。
論文 参考訳(メタデータ) (2025-08-30T01:53:25Z) - ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - Incentivizing LLMs to Self-Verify Their Answers [22.387551134333084]
本稿では,大規模言語モデルにインセンティブを与え,自己検証を行うフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
複数の数学的推論ベンチマークの実験は、我々のモデルがトレーニング後の性能を改善するだけでなく、効果的なテスト時間スケーリングを可能にすることを示している。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。