論文の概要: Can Confidence Estimates Decide When Chain-of-Thought Is Necessary for LLMs?
- arxiv url: http://arxiv.org/abs/2510.21007v2
- Date: Mon, 27 Oct 2025 09:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.63724
- Title: Can Confidence Estimates Decide When Chain-of-Thought Is Necessary for LLMs?
- Title(参考訳): LLMにはチェーン・オブ・ソートが必要か, 信頼は決定できるのか?
- Authors: Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, Nikolaos Aletras,
- Abstract要約: CoT(Chain-of- Thought)プロンプトは、大規模言語モデルの推論能力を高めるための一般的な手法として登場した。
本研究は,CoTゲーティングのためのトレーニング不要信頼度推定手法に関する最初の体系的研究である。
- 参考スコア(独自算出の注目度): 32.02698064940949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) prompting has emerged as a common technique for enhancing the reasoning abilities of large language models (LLMs). While extended reasoning can boost accuracy on complex tasks, it is often unnecessary and substantially increases token usage, limiting the practicality of reasoning models in many scenarios. Recent models, such as GPT-OSS and Qwen3, expose controls that enable users to adjust the length of CoT or determine whether it is used at all. Yet, it remains unclear when CoT should be used: on some tasks it improves performance, while on others it provides little benefit or even harms performance. We address this challenge with confidence-gated CoT, where a model invokes reasoning only when confidence in its direct answer is low. To this end, we present the first systematic study of training-free confidence estimation methods for CoT gating. Specifically, we evaluate four training-free confidence estimation methods and compare them to a random baseline and an oracle that always knows when CoT is needed. Through extensive experiments, we show that existing training-free confidence measures can reduce redundant CoT and outperform randomly invoked CoT. However, the utility of individual confidence measures is inconsistent, varying with both the dataset and the model, underscoring the difficulty of deploying confidence-gated CoT in practice. By analysing both strengths and failure modes, our study highlights the potential and limitations of current methods and paves the way toward more reliable adaptive gating of CoT.
- Abstract(参考訳): 大型言語モデル(LLM)の推論能力を高めるための一般的な手法として、CoTプロンプト(Chain-of-thinkt)が登場した。
拡張推論は複雑なタスクの精度を高めることができるが、多くの場合は不要であり、トークンの使用量が大幅に増加し、多くのシナリオにおける推論モデルの実用性が制限される。
GPT-OSSやQwen3といった最近のモデルでは、ユーザがCoTの長さを調整したり、全く使われていないかどうかを判断できるコントロールが公開されている。
しかし、CoTがいつ使われるべきかは定かではない。タスクによってはパフォーマンスが向上する一方、他のタスクではほとんど利益が得られず、パフォーマンスに害を与えることもある。
モデルがその直接的な回答の信頼性が低い場合にのみ推論を起動する。
そこで本研究では,CoTゲーティングのためのトレーニング不要な信頼度推定手法について,最初の系統的研究を行った。
具体的には,4つのトレーニング不要な信頼度推定手法を評価し,CoTがいつ必要なのかを常に知っているランダムなベースラインとオラクルと比較する。
大規模な実験により、既存のトレーニング不要な信頼度尺度は、冗長なCoTを低減し、ランダムに呼び出されたCoTより優れた性能を示す。
しかし、個別の信頼度測定の実用性はデータセットとモデルの両方と不整合であり、実際に信頼できるCoTをデプロイすることの難しさを浮き彫りにしている。
長所と短所の両方を解析することにより、現在の手法の可能性と限界を強調し、CoTのより信頼性の高い適応ゲーティングへの道を開く。
関連論文リスト
- Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Conformal Calibration of Statistical Confidence Sets [1.8840155706520811]
本研究では,TRUSTとTRUST++という2つの新しい手法を導入する。
我々は,本手法が既存のアプローチ,特に小サンプル方式よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-11-28T20:45:59Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。