論文の概要: Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach
- arxiv url: http://arxiv.org/abs/2509.07820v1
- Date: Tue, 09 Sep 2025 14:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.367909
- Title: Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach
- Title(参考訳): 大規模言語モデルにおける確実性誘導推論:動的思考予算アプローチ
- Authors: João Paulo Nogueira, Wentao Sun, Alonso Silva, Laith Zumot,
- Abstract要約: CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
- 参考スコア(独自算出の注目度): 0.15749416770494704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large reasoning language models (LRLMs) has unlocked new potential for solving complex tasks. These models operate with a thinking budget, that is, a predefined number of reasoning tokens used to arrive at a solution. We propose a novel approach, inspired by the generator/discriminator framework in generative adversarial networks, in which a critic model periodically probes its own reasoning to assess whether it has reached a confident conclusion. If not, reasoning continues until a target certainty threshold is met. This mechanism adaptively balances efficiency and reliability by allowing early termination when confidence is high, while encouraging further reasoning when uncertainty persists. Through experiments on the AIME2024 and AIME2025 datasets, we show that Certainty-Guided Reasoning (CGR) improves baseline accuracy while reducing token usage. Importantly, extended multi-seed evaluations over 64 runs demonstrate that CGR is stable, reducing variance across seeds and improving exam-like performance under penalty-based grading. Additionally, our token savings analysis shows that CGR can eliminate millions of tokens in aggregate, with tunable trade-offs between certainty thresholds and efficiency. Together, these findings highlight certainty as a powerful signal for reasoning sufficiency. By integrating confidence into the reasoning process, CGR makes large reasoning language models more adaptive, trustworthy, and resource efficient, paving the way for practical deployment in domains where both accuracy and computational cost matter.
- Abstract(参考訳): 大きな推論言語モデル(LRLM)の台頭は、複雑なタスクを解く新しい可能性の解放に繋がった。
これらのモデルは思考予算、すなわち、ソリューションに到達するのに使用される推論トークンの数で機能する。
本稿では,生成的敵ネットワークにおけるジェネレータ/ディスクリミネータの枠組みに着想を得た新たなアプローチを提案する。
もしそうでなければ、推論は目標の確実性しきい値が満たされるまで続く。
この機構は、信頼性が高い場合に早期終了を許容し、不確実性が持続する場合にはさらなる推論を奨励することにより、効率と信頼性を適応的にバランスさせる。
AIME2024とAIME2025データセットの実験を通じて、CGR(Certainty-Guided Reasoning)がトークン使用率を低減しつつ、ベースライン精度を向上させることを示す。
重要な点として、64回以上の多系統評価では、CGRは安定であり、種子間のばらつきを低減し、ペナルティベースの格付けによる試験のような性能を向上させることが示されている。
さらに、トークン保存分析により、CGRは、確実なしきい値と効率の間の調整可能なトレードオフを伴って、数百万のトークンを集約的に排除できることを示す。
これらの知見はともに、十分推論するための強力なシグナルとして確実性を強調している。
信頼性を推論プロセスに統合することにより、CGRは大規模推論言語モデルをより適応的で信頼性が高く、リソース効率が良くし、精度と計算コストの両方が問題となる領域での実践的な展開の道を開く。
関連論文リスト
- Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。
LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。
本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。