論文の概要: Optimizing Chain-of-Thought Confidence via Topological and Dirichlet Risk Analysis
- arxiv url: http://arxiv.org/abs/2511.06437v1
- Date: Sun, 09 Nov 2025 16:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.944949
- Title: Optimizing Chain-of-Thought Confidence via Topological and Dirichlet Risk Analysis
- Title(参考訳): トポロジカルおよびディリクレリスク分析による信頼度最適化
- Authors: Abhishek More, Anthony Zhang, Nicole Bonilla, Ashvik Vivekan, Kevin Zhu, Parham Sharafoleslami, Maheep Chaudhary,
- Abstract要約: チェーン・オブ・シークレットのプロンプトにより、大規模言語モデルは複雑な問題を解決することができる。
既存の手法では、誤った予測に対するキャリブレーションの低下と深刻な過信に悩まされている。
複数の推論経路にまたがる信頼度を測定するために,拡張ディリクレ・トポロジーリスク(EDTR)を提案する。
- 参考スコア(独自算出の注目度): 3.4324137096523746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) prompting enables Large Language Models to solve complex problems, but deploying these models safely requires reliable confidence estimates, a capability where existing methods suffer from poor calibration and severe overconfidence on incorrect predictions. We propose Enhanced Dirichlet and Topology Risk (EDTR), a novel decoding strategy that combines topological analysis with Dirichlet-based uncertainty quantification to measure LLM confidence across multiple reasoning paths. EDTR treats each CoT as a vector in high-dimensional space and extracts eight topological risk features capturing the geometric structure of reasoning distributions: tighter, more coherent clusters indicate higher confidence while dispersed, inconsistent paths signal uncertainty. We evaluate EDTR against three state-of-the-art calibration methods across four diverse reasoning benchmarks spanning olympiad-level mathematics (AIME), grade school math (GSM8K), commonsense reasoning, and stock price prediction \cite{zhang2025aime, cobbe2021training, talmor-etal-2019-commonsenseqa, yahoo_finance}. EDTR achieves 41\% better calibration than competing methods with an average ECE of 0.287 and the best overall composite score of 0.672, while notably achieving perfect accuracy on AIME and exceptional calibration on GSM8K with an ECE of 0.107, domains where baselines exhibit severe overconfidence. Our work provides a geometric framework for understanding and quantifying uncertainty in multi-step LLM reasoning, enabling more reliable deployment where calibrated confidence estimates are essential.
- Abstract(参考訳): チェーン・オブ・思想(CoT)の促進により、大規模言語モデルでは複雑な問題を解決することができるが、これらのモデルを安全にデプロイするには信頼性の高い信頼推定が必要である。
本研究では,複数経路にわたるLDM信頼度を測定するために,トポロジカル解析とディリクレに基づく不確実性定量化を組み合わせた新しい復号法であるEDTRを提案する。
EDTRは、それぞれのCoTを高次元空間のベクトルとして扱い、推論分布の幾何学的構造を捉える8つのトポロジカルリスク特徴を抽出する。
我々は,オリンピアドレベルの数学(AIME),小学校数学(GSM8K),常識推論(Commonsense reasoning),株価予測(cite{zhang2025aime,cobbe2021training,talmor-etal-2019-commonsenseqa,yahoo_finance})を対象とする4つの多種多様な推論ベンチマークを用いて,EDTRの評価を行った。
EDTRは、平均的なECEが0.287で最高の総合スコアが0.672で、AIMEで完全精度を達成し、GSM8Kでは0.107で特別なキャリブレーションを達成している。
我々の研究は、多段階のLCM推論における不確実性を理解し定量化するための幾何学的枠組みを提供し、キャリブレーションされた信頼度推定が不可欠であるより信頼性の高いデプロイメントを可能にする。
関連論文リスト
- Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection [56.302586730134806]
本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。
CCEは同時に、予測の信頼性と不確実性を測定する。
RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
論文 参考訳(メタデータ) (2025-09-01T03:38:38Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Towards Understanding Variants of Invariant Risk Minimization through the Lens of Calibration [0.6906005491572401]
本稿では,Information BottleneckをベースとしたITMが,異なる環境における一貫したキャリブレーションを実現することを示す。
私たちの経験的証拠は、環境全体にわたって一貫した校正を示すモデルも十分に校正されていることを示している。
論文 参考訳(メタデータ) (2024-01-31T02:08:43Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。