論文の概要: First Try Matters: Revisiting the Role of Reflection in Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.08308v1
- Date: Thu, 09 Oct 2025 14:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.147531
- Title: First Try Matters: Revisiting the Role of Reflection in Reasoning Models
- Title(参考訳): 第一試行 - 推論モデルにおけるリフレクションの役割を再考する
- Authors: Liwei Kang, Yue Deng, Yao Xiao, Zhanfeng Mo, Wee Sun Lee, Lidong Bing,
- Abstract要約: 我々は、モデルがすでに答を生み出しているが、その出力を確定する前に反射し続ける反射行動に焦点を当てる。
分析の結果,反射はおおむね肯定的であり,モデルの初期回答を変えることは滅多にないことがわかった。
本稿では,いくつかの候補解が生成されると推論プロセスが停止し,推論時間のトークン効率を向上させる質問認識早期検索手法を提案する。
- 参考スコア(独自算出の注目度): 66.39546876232512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have recently demonstrated significant gains in reasoning ability, often attributed to their capacity to generate longer chains of thought and engage in reflective reasoning. However, the contribution of reflections to performance improvement remains unclear. In this paper, we systematically analyze the rollouts of eight reasoning models on five mathematical datasets. We focus on reflective behaviours where the model has already produced an answer but continues reflecting before finalizing its output. Our analysis reveals that reflections are predominantly confirmatory and rarely alter the model's initial answer, a pattern consistent across models and datasets. To understand the role of reflections in training, we construct supervised fine-tuning (SFT) datasets with varying amounts of reflection steps. We observe that training models on rollouts with more reflection steps primarily enhances first-answer correctness rather than the ability to correct initially wrong answers through reflections. This motivates us to propose a question-aware early-stopping method that enhances inference-time token efficiency by stopping the reasoning process once a few plausible candidate answers are generated, thereby reducing unnecessary reflection steps. Motivated by this, we further propose to dynamically truncate the reflections after a candidate answer has appeared during generation, which reduces reasoning tokens by 24.5% across five mathematical datasets, within a 2.9% drop in accuracy.
- Abstract(参考訳): 大規模言語モデルは近年、推論能力において顕著な向上を示しており、しばしば思考の長い連鎖を生成し、反射的推論に携わる能力に起因している。
しかし、性能改善へのリフレクションの貢献はいまだに不明である。
本稿では,5つの数学的データセット上での8つの推論モデルのロールアウトを系統的に解析する。
我々は、モデルがすでに答を生み出しているが、その出力を確定する前に反射し続ける反射行動に焦点を当てる。
我々の分析によると、リフレクションは主に確認可能であり、モデルとデータセット間で一貫性のあるパターンであるモデルの初期回答を変更することは滅多にない。
トレーニングにおけるリフレクションの役割を理解するため、様々な量のリフレクションステップを持つ教師付き微調整(SFT)データセットを構築した。
より反射度の高いロールアウトでのトレーニングモデルは、リフレクションによって最初に間違った回答を補正する能力よりも、第一回答の正しさを第一に向上させる。
そこで本研究では,いくつかの候補解が生成されると推論プロセスが停止し,不必要なリフレクションステップを減らし,推論時間トークン効率を向上する問題対応早期ストッピング手法を提案する。
そこで本研究では,5つの数学的データセットにおける推論トークンの24.5%を2.9%の精度で削減する手法を提案する。
関連論文リスト
- Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models [29.615519143908998]
自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。
自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。
また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
論文 参考訳(メタデータ) (2025-06-14T05:30:09Z) - From Emergence to Control: Probing and Modulating Self-Reflection in Language Models [23.176641726866105]
自己回帰は、検証可能な報酬を伴う強化学習によって実現される強力な行動である。
自己回帰は微調整モデルに限らないことを示す。
論文 参考訳(メタデータ) (2025-06-13T20:40:13Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-Reflection [60.75785864719726]
本稿では,小言語モデル(SLM)がリフレクション学習を通じてメタイントロスペクションを向上させることを実証するために,新しいパイプラインであるReflectEvoを提案する。
大規模かつ包括的かつ自己生成型リフレクションデータセットであるReflectEvo-460kを構築し,多様なマルチドメインタスクを実現する。
論文 参考訳(メタデータ) (2025-05-22T10:03:05Z) - Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction [11.838351314880736]
インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。
実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-02T14:02:03Z) - Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time [22.397964526411812]
本稿では,効果的なリフレクションを訓練した専用の批判モデルを備えたデュアルモデル反射スコーリングフレームワークを提案する。
DARSは強力なパフォーマンスを達成し、すべての評価指標で既存のASSベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-02-26T15:41:41Z) - Reverse Thinking Makes LLMs Stronger Reasoners [90.42357659849215]
RevThinkは、データ拡張と学習目的からなるフレームワークである。
12のデータセットに対する実験では、学生モデルのゼロショットのパフォーマンスよりも平均13.53%改善されている。
RevThinkはまた、アウト・オブ・ディストリビューション・ホールドアウトデータセットへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-11-29T17:27:05Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。