論文の概要: Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach
- arxiv url: http://arxiv.org/abs/2509.07820v1
- Date: Tue, 09 Sep 2025 14:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.367909
- Title: Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach
- Title(参考訳): 大規模言語モデルにおける確実性誘導推論:動的思考予算アプローチ
- Authors: João Paulo Nogueira, Wentao Sun, Alonso Silva, Laith Zumot,
- Abstract要約: CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
- 参考スコア(独自算出の注目度): 0.15749416770494704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large reasoning language models (LRLMs) has unlocked new potential for solving complex tasks. These models operate with a thinking budget, that is, a predefined number of reasoning tokens used to arrive at a solution. We propose a novel approach, inspired by the generator/discriminator framework in generative adversarial networks, in which a critic model periodically probes its own reasoning to assess whether it has reached a confident conclusion. If not, reasoning continues until a target certainty threshold is met. This mechanism adaptively balances efficiency and reliability by allowing early termination when confidence is high, while encouraging further reasoning when uncertainty persists. Through experiments on the AIME2024 and AIME2025 datasets, we show that Certainty-Guided Reasoning (CGR) improves baseline accuracy while reducing token usage. Importantly, extended multi-seed evaluations over 64 runs demonstrate that CGR is stable, reducing variance across seeds and improving exam-like performance under penalty-based grading. Additionally, our token savings analysis shows that CGR can eliminate millions of tokens in aggregate, with tunable trade-offs between certainty thresholds and efficiency. Together, these findings highlight certainty as a powerful signal for reasoning sufficiency. By integrating confidence into the reasoning process, CGR makes large reasoning language models more adaptive, trustworthy, and resource efficient, paving the way for practical deployment in domains where both accuracy and computational cost matter.
- Abstract(参考訳): 大きな推論言語モデル(LRLM)の台頭は、複雑なタスクを解く新しい可能性の解放に繋がった。
これらのモデルは思考予算、すなわち、ソリューションに到達するのに使用される推論トークンの数で機能する。
本稿では,生成的敵ネットワークにおけるジェネレータ/ディスクリミネータの枠組みに着想を得た新たなアプローチを提案する。
もしそうでなければ、推論は目標の確実性しきい値が満たされるまで続く。
この機構は、信頼性が高い場合に早期終了を許容し、不確実性が持続する場合にはさらなる推論を奨励することにより、効率と信頼性を適応的にバランスさせる。
AIME2024とAIME2025データセットの実験を通じて、CGR(Certainty-Guided Reasoning)がトークン使用率を低減しつつ、ベースライン精度を向上させることを示す。
重要な点として、64回以上の多系統評価では、CGRは安定であり、種子間のばらつきを低減し、ペナルティベースの格付けによる試験のような性能を向上させることが示されている。
さらに、トークン保存分析により、CGRは、確実なしきい値と効率の間の調整可能なトレードオフを伴って、数百万のトークンを集約的に排除できることを示す。
これらの知見はともに、十分推論するための強力なシグナルとして確実性を強調している。
信頼性を推論プロセスに統合することにより、CGRは大規模推論言語モデルをより適応的で信頼性が高く、リソース効率が良くし、精度と計算コストの両方が問題となる領域での実践的な展開の道を開く。
関連論文リスト
- Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning [58.331709210563616]
サブトラクションによる思考は、信頼主導のコントラスト的デコーディングアプローチである。
低信頼トークンの小さなサブセットは、誤りの推論と不要な出力拡大に不当に寄与する。
信頼駆動型コントラストデコーディング(Confidence-Driven Contrastive Decoding)は,デコーディング中の低信頼トークンを検出し,それらの位置で介入する。
論文 参考訳(メタデータ) (2026-02-20T14:13:22Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。
LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。
本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。