論文の概要: Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction
- arxiv url: http://arxiv.org/abs/2512.18605v1
- Date: Sun, 21 Dec 2025 05:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.415483
- Title: Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction
- Title(参考訳): 反射的信頼:オンライン自己補正による推論欠陥の修正
- Authors: Qinglin Zeng, Jing Yang, Keze Wang,
- Abstract要約: 大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
- 参考スコア(独自算出の注目度): 14.164508061248775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved strong performance on complex reasoning tasks using techniques such as chain-of-thought and self-consistency. However, ensemble-based approaches, especially self-consistency which relies on multiple reasoning trajectories, often incur substantial computational overhead. To improve efficiency, prior work has leveraged internal confidence signals, where early stopping strategies such as DeepConf reduce cost by terminating low-confidence trajectories. However, this strategy discards incomplete reasoning paths and wastes partial computation. We propose reflective confidence, a novel reasoning framework that transforms low-confidence signals from termination indicators into reflection triggers. When confidence falls below a threshold, instead of stopping generation, the model produces a reflection prompt to analyze the current reasoning state, identify potential errors, and continue generation along a corrected trajectory. Experiments on mathematical reasoning benchmarks, including AIME 2025, demonstrate significant accuracy improvements over advanced early-stopping baselines at comparable computational cost, validating the effectiveness of proactive self-correction over passive discarding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
しかし、アンサンブルに基づくアプローチ、特に複数の推論軌道に依存する自己整合性は、しばしばかなりの計算オーバーヘッドを引き起こす。
効率を改善するために、事前の作業は内部信頼信号を利用しており、DeepConfのような早期停止戦略は低信頼軌道を終了することでコストを削減している。
しかし、この戦略は不完全な推論経路を捨て、部分計算を無駄にする。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
信頼度がしきい値を下回ると、生成を止める代わりに、モデルがリフレクションプロンプトを生成し、現在の推論状態を分析し、潜在的な誤りを特定し、修正された軌道に沿って生成を続ける。
AIME 2025を含む数学的推論ベンチマークの実験では、高い計算コストで先進的な早期停止ベースラインよりも大幅に精度が向上し、パッシブな破棄よりも能動的自己補正の有効性が検証された。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning [31.861874030715953]
サンプリングに基づくテスト時間スケーリング手法を解析するための最初の理論的枠組みを提供する。
RPCは2つの重要なコンポーネント、パープレキシティ・一貫性と推論・プルーニングを通じて、理論的な洞察を活用するハイブリッド手法です。
RPCは、信頼性を向上するだけでなく、サンプリングコストを50%削減しながら、自己整合性に匹敵する推論性能を達成する。
論文 参考訳(メタデータ) (2025-10-17T08:59:30Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。