論文の概要: ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement
- arxiv url: http://arxiv.org/abs/2604.01591v1
- Date: Thu, 02 Apr 2026 04:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.257572
- Title: ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement
- Title(参考訳): ThinkTwice: 推論と自己修正のための大規模言語モデルの共同最適化
- Authors: Difan Jiao, Qianfeng Wen, Blair Yang, Zhenwei Tang, Ashton Anderson,
- Abstract要約: ThinkTwiceは、推論問題の解決と回答の洗練のために、LLMを共同で最適化するフレームワークである。
我々の研究は、RLVRの原則的かつ効果的な方法論として、推論と自己補充の共同訓練を確立している。
- 参考スコア(独自算出の注目度): 10.111230498084469
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce ThinkTwice, a simple two-phase framework that jointly optimizes LLMs to solve reasoning problems and refine the answers, based on Group Relative Policy Optimization (GRPO). In each pair of training steps, ThinkTwice first optimizes the model on solving reasoning problems, then optimizes it on refining its own solutions to the same problems, using the same binary correctness reward in both phases without correctness signals or critique annotations. Across five mathematical reasoning benchmarks and two model families including Qwen3-4B and Olmo3-7B, ThinkTwice substantially improves both reasoning and refinement performance over competitive online policy optimization baselines. Specifically, on Qwen3-4B, ThinkTwice outperforms GRPO on AIME by 5 percentage points before refinement and by 11.5 points after one self-refinement step, measured by pass@4. Analysis of the training dynamics of ThinkTwice reveals an implicit rectify-then-fortify curriculum: refinement predominantly corrects errors early in training and naturally shifts toward preserving already-correct solutions as the model improves, yielding a more rectified reward signal. Our work establishes joint training of reasoning and self-refinement as a principled and effective methodology for RLVR.
- Abstract(参考訳): グループ相対政策最適化(GRPO)に基づいて,LLMを協調的に最適化して推論問題の解決と解の洗練を行う,シンプルな2相フレームワークであるThinkTwiceを紹介する。
それぞれのトレーニングステップにおいて、ThinkTwiceはまず推論問題を解決するためのモデルを最適化し、その後、同じ問題に対する独自のソリューションの修正を最適化する。
Qwen3-4BとOlmo3-7Bを含む5つの数学的推論ベンチマークと2つのモデルファミリに対して、ThinkTwiceは、競合するオンラインポリシー最適化ベースラインよりも、推論と改善のパフォーマンスを大幅に改善する。
具体的には、Qwen3-4B では、ThinkTwice は AIME 上で GRPO を改良前の 5 パーセント、自己修正ステップ後の 11.5 ポイントで上回り、pass@4 で測定する。
ThinkTwiceのトレーニングダイナミクスの分析では、暗黙の正当性(rerectify-then-fortify)のカリキュラムが明らかにされている。
我々の研究は、RLVRの原則的かつ効果的な方法論として、推論と自己補充の共同訓練を確立している。
関連論文リスト
- SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search [58.116954449750544]
多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。
直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
論文 参考訳(メタデータ) (2025-10-19T16:21:19Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Self-Training Meets Consistency: Improving LLMs' Reasoning with Consistency-Driven Rationale Evaluation [15.124701883286436]
大規模言語モデル(LLM)の自己学習アプローチは、自己生成的理性に基づいてモデルをトレーニングすることで推論能力を向上させる。
これまでのアプローチでは、与えられた質問に対する正しい答えをトレーニングに適するように、合理的にラベル付けしてきた。
CREST(Consistency-driven Rationale Evaluation for Self-Training)は,フォローアップ質問を通じて各根拠を更に評価する自己学習フレームワークである。
論文 参考訳(メタデータ) (2024-11-10T08:11:05Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。