論文の概要: Teaching Large Reasoning Models Effective Reflection
- arxiv url: http://arxiv.org/abs/2601.12720v1
- Date: Mon, 19 Jan 2026 04:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.758724
- Title: Teaching Large Reasoning Models Effective Reflection
- Title(参考訳): 大規模推論モデルに効果的なリフレクションを教える
- Authors: Hanbin Wang, Jingwei Song, Jinpeng Li, Qi Zhu, Fei Mi, Ganqu Cui, Yasheng Wang, Lifeng Shang,
- Abstract要約: 大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的なパフォーマンスを示している。
しかし、すべてのリフレクションが有益であるとは限らない。
まず,自己批判のみを用いてモデルの反射的推論能力を高める訓練フレームワークである自己批判ファインチューニング(SCFT)を提案する。
- 参考スコア(独自算出の注目度): 62.73646680747003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have recently shown impressive performance on complex reasoning tasks, often by engaging in self-reflective behaviors such as self-critique and backtracking. However, not all reflections are beneficial-many are superficial, offering little to no improvement over the original answer and incurring computation overhead. In this paper, we identify and address the problem of superficial reflection in LRMs. We first propose Self-Critique Fine-Tuning (SCFT), a training framework that enhances the model's reflective reasoning ability using only self-generated critiques. SCFT prompts models to critique their own outputs, filters high-quality critiques through rejection sampling, and fine-tunes the model using a critique-based objective. Building on this strong foundation, we further introduce Reinforcement Learning with Effective Reflection Rewards (RLERR). RLERR leverages the high-quality reflections initialized by SCFT to construct reward signals, guiding the model to internalize the self-correction process via reinforcement learning. Experiments on two challenging benchmarks, AIME2024 and AIME2025, show that SCFT and RLERR significantly improve both reasoning accuracy and reflection quality, outperforming state-of-the-art baselines. All data and codes are available at https://github.com/wanghanbinpanda/SCFT.
- Abstract(参考訳): 大規模推論モデル(LRM)は最近、複雑な推論タスクにおいて、しばしば自己批判やバックトラックのような自己反射的な行動に関わることで、印象的なパフォーマンスを示した。
しかし、すべてのリフレクションは有益であるとは限らない。多くのリフレクションは表面的であり、元の答えよりもほとんど、あるいは全く改善されず、計算オーバーヘッドが生じる。
本稿では, LRMにおける表面反射の問題を同定し, 対処する。
まず,自己批判のみを用いてモデルの反射的推論能力を高める訓練フレームワークである自己批判ファインチューニング(SCFT)を提案する。
SCFTは、モデルに自身の出力を批判するよう促し、拒絶サンプリングを通じて高品質な批評をフィルタリングし、批判に基づく目的を用いてモデルを微調整する。
この強力な基盤の上に構築され, 有効反射リワード(RLERR)を用いた強化学習をさらに導入する。
RLERRはSCFTによって初期化された高品質な反射を利用して報酬信号を構築し、モデルに強化学習を通じて自己補正プロセスの内部化を誘導する。
AIME2024 と AIME2025 の2つの挑戦的なベンチマークの実験では、SCFT と RLERR は推論精度と反射品質の両方を著しく改善し、最先端のベースラインを上回った。
すべてのデータとコードはhttps://github.com/wanghanbinpanda/SCFTで入手できる。
関連論文リスト
- Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning [89.60378227969643]
より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。
提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。
さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2025-10-28T11:37:01Z) - First Try Matters: Revisiting the Role of Reflection in Reasoning Models [66.39546876232512]
我々は、モデルがすでに答を生み出しているが、その出力を確定する前に反射し続ける反射行動に焦点を当てる。
分析の結果,反射はおおむね肯定的であり,モデルの初期回答を変えることは滅多にないことがわかった。
本稿では,いくつかの候補解が生成されると推論プロセスが停止し,推論時間のトークン効率を向上させる質問認識早期検索手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T14:57:10Z) - RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback [57.967762383794806]
RefCriticは、二重ルールベースの報酬による強化学習に基づく、長鎖の批判モジュールである。
我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
論文 参考訳(メタデータ) (2025-07-20T16:19:51Z) - Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models [29.615519143908998]
自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。
自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。
また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
論文 参考訳(メタデータ) (2025-06-14T05:30:09Z) - Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction [11.838351314880736]
インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。
実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-02T14:02:03Z) - Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time [22.397964526411812]
本稿では,効果的なリフレクションを訓練した専用の批判モデルを備えたデュアルモデル反射スコーリングフレームワークを提案する。
DARSは強力なパフォーマンスを達成し、すべての評価指標で既存のASSベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-02-26T15:41:41Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。