論文の概要: Recurrent Confidence Chain: Temporal-Aware Uncertainty Quantification in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.13368v1
- Date: Mon, 19 Jan 2026 20:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.046481
- Title: Recurrent Confidence Chain: Temporal-Aware Uncertainty Quantification in Large Language Models
- Title(参考訳): Recurrent Confidence Chain: 大規模言語モデルにおける時間認識不確かさの定量化
- Authors: Zhenjiang Mao, Anirudhh Venkat,
- Abstract要約: 答えの不確かさは、ユーザーにとって誤解を招くことや深刻な幻覚を防ぐのに役立つ。
現在の方法では、無関係なトークンをフィルタリングし、近くのトークンや文間の潜在的な接続を調べることで、長い推論シーケンスを分析する。
本稿では,ステップ間の意味的相関を解析するために,ステップ間注意を取り入れた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As reasoning modules, such as the chain-of-thought mechanism, are applied to large language models, they achieve strong performance on various tasks such as answering common-sense questions and solving math problems. The main challenge now is to assess the uncertainty of answers, which can help prevent misleading or serious hallucinations for users. Although current methods analyze long reasoning sequences by filtering unrelated tokens and examining potential connections between nearby tokens or sentences, the temporal spread of confidence is often overlooked. This oversight can lead to inflated overall confidence, even when earlier steps exhibit very low confidence. To address this issue, we propose a novel method that incorporates inter-step attention to analyze semantic correlations across steps. For handling long-horizon responses, we introduce a hidden confidence mechanism to retain historical confidence information, which is then combined with stepwise confidence to produce a more accurate overall estimate. We evaluate our method on the GAOKAO math benchmark and the CLadder causal reasoning dataset using mainstream open-source large language models. Our approach is shown to outperform state-of-the-art methods by achieving a superior balance between predictive quality and calibration, demonstrated by strong performance on both Negative Log-Likelihood and Expected Calibration Error.
- Abstract(参考訳): 思考の連鎖機構のような推論モジュールは、大きな言語モデルに適用されるため、常識的な質問に答えたり、数学の問題を解くなど、様々なタスクにおいて高い性能を発揮する。
今の主な課題は、答えの不確実性を評価することであり、これはユーザーにとって誤解を招くことや深刻な幻覚を防ぐのに役立つ。
現在の方法では、無関係なトークンをフィルタリングし、近くのトークンや文間の潜在的なつながりを調べることで、長い推論シーケンスを分析するが、信頼の時間的広がりは見落とされがちである。
この監視は、以前のステップが非常に低い信頼を示す場合でも、全体的な信頼を膨らませる可能性がある。
この問題に対処するために,ステップ間の注意を組み込んで,ステップ間の意味的相関を解析する手法を提案する。
長軸応答の処理には,過去の信頼情報を保持するための秘密の信頼機構を導入し,それを段階的信頼と組み合わせることで,より正確な全体推定を行う。
提案手法は,GAokaoのベンチマークとCLadder因果推論データセットを用いて,主要なオープンソース大言語モデルを用いて評価する。
本手法は,予測品質とキャリブレーションのバランスが良く,負の対数類似度と期待の校正誤差の両面において高い性能を示すことにより,最先端の手法よりも優れていることを示す。
関連論文リスト
- Confidence over Time: Confidence Calibration with Temporal Logic for Large Language Model Reasoning [0.058633603884542605]
信号時間論理(STL)を用いた段階的信頼信号の特徴付けを提案する。
識別的STLマイニング手法を用いて,正誤応答の信頼信号と正誤応答を区別する時間式を探索する。
パラメータハイパーネットを用いたSTLブロックの信頼度推定手法を開発した。
論文 参考訳(メタデータ) (2026-01-19T20:48:06Z) - Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Read Your Own Mind: Reasoning Helps Surface Self-Confidence Signals in LLMs [2.4892313127400962]
質問応答(QA)タスクにおける自己報告された言語信頼度を分析して,DeepSeek R1-32Bの不確実性の原因について検討した。
我々はDeepSeekに、最終回答の前に長い連鎖を強制することで、その分布を探求する予算を与えることで、その言語スコアの有効性を大幅に改善することを示します。
論文 参考訳(メタデータ) (2025-05-28T17:01:30Z) - Non-Asymptotic Uncertainty Quantification in High-Dimensional Learning [5.318766629972959]
不確かさの定量化は多くの高次元回帰や学習問題において決定的だが難しい課題である。
我々は、古典的回帰アプローチとニューラルネットワークの両方に適用可能な、回帰におけるUQのための新しいデータ駆動アプローチを開発した。
論文 参考訳(メタデータ) (2024-07-18T16:42:10Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。