論文の概要: Confidence over Time: Confidence Calibration with Temporal Logic for Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2601.13387v1
- Date: Mon, 19 Jan 2026 20:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.058633
- Title: Confidence over Time: Confidence Calibration with Temporal Logic for Large Language Model Reasoning
- Title(参考訳): 時間に対する信頼:大規模言語モデル推論のための時間論理による信頼度校正
- Authors: Zhenjiang Mao, Anirudhh Venkat, Artem Bisliouk, Akshat Kothiyal, Sindhura Kumbakonam Subramanian, Saithej Singhu, Ivan Ruchkin,
- Abstract要約: 信号時間論理(STL)を用いた段階的信頼信号の特徴付けを提案する。
識別的STLマイニング手法を用いて,正誤応答の信頼信号と正誤応答を区別する時間式を探索する。
パラメータハイパーネットを用いたSTLブロックの信頼度推定手法を開発した。
- 参考スコア(独自算出の注目度): 0.058633603884542605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) increasingly rely on long-form, multi-step reasoning to solve complex tasks such as mathematical problem solving and scientific question answering. Despite strong performance, existing confidence estimation methods typically reduce an entire reasoning process to a single scalar score, ignoring how confidence evolves throughout the generation. As a result, these methods are often sensitive to superficial factors such as response length or verbosity, and struggle to distinguish correct reasoning from confidently stated errors. We propose to characterize the stepwise confidence signal using Signal Temporal Logic (STL). Using a discriminative STL mining procedure, we discover temporal formulas that distinguish confidence signals of correct and incorrect responses. Our analysis found that the STL patterns generalize across tasks, and numeric parameters exhibit sensitivity to individual questions. Based on these insights, we develop a confidence estimation approach that informs STL blocks with parameter hypernetworks. Experiments on multiple reasoning tasks show our confidence scores are more calibrated than the baselines.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、数学的な問題解決や科学的な質問応答といった複雑な課題を解決するために、長い形式の多段階推論にますます依存している。
高い性能にもかかわらず、既存の信頼度推定手法は一般的に、すべての推論プロセスを1つのスカラースコアに減らし、世代全体での信頼度を無視する。
その結果、これらの手法は、応答長や冗長性などの表面的要因に敏感であり、確実に述べられた誤りと正しい推論を区別するのに苦労する。
本稿では,信号時間論理(STL)を用いた段階的信頼信号の特徴付けを提案する。
識別的STLマイニング手法を用いて,正誤応答の信頼信号と正誤応答を区別する時間式を探索する。
分析の結果、STLパターンはタスク全体にわたって一般化され、数値パラメータは個々の質問に対する感度を示すことがわかった。
これらの知見に基づき,パラメータハイパーネットを用いたSTLブロックの信頼度推定手法を開発した。
複数の推論タスクの実験は、基準値よりも信頼性スコアが校正されていることを示している。
関連論文リスト
- Recurrent Confidence Chain: Temporal-Aware Uncertainty Quantification in Large Language Models [0.0]
答えの不確かさは、ユーザーにとって誤解を招くことや深刻な幻覚を防ぐのに役立つ。
現在の方法では、無関係なトークンをフィルタリングし、近くのトークンや文間の潜在的な接続を調べることで、長い推論シーケンスを分析する。
本稿では,ステップ間の意味的相関を解析するために,ステップ間注意を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2026-01-19T20:04:34Z) - Fact-Checking with Large Language Models via Probabilistic Certainty and Consistency [7.806516365113592]
大規模言語モデル(LLM)は、事実の正確性を必要とするアプリケーションでますます使われている。
事実チェックはこれらのエラーを軽減することができるが、既存の手法は通常、外的証拠を無差別に回収する。
本稿では,確率的確実性と一貫性(PCC)について紹介する。
論文 参考訳(メタデータ) (2026-01-05T21:57:41Z) - Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - Thinking, Faithful and Stable: Mitigating Hallucinations in LLMs [0.4115305983711515]
大規模言語モデル(LLM)のための自己修正フレームワークを開発する。
最終回答の正しさのみに頼るのではなく、細かな不確実性信号を利用する。
我々は不当な高信頼とエントロピースパイクをペナル化する複合報酬関数を設計する。
論文 参考訳(メタデータ) (2025-11-19T23:09:26Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Trace Length is a Simple Uncertainty Signal in Reasoning Models [18.432200654999082]
推理トレース長は大きな推理モデルにおいて有用な信頼度推定器であることを示す。
我々の研究は、学習後の推論がトレース長と精度の関係を根本的に変えることを明らかにしている。
高エントロピーや「フォーク」トークンはメカニズムにおいて重要な役割を担っていると認識する。
論文 参考訳(メタデータ) (2025-10-12T02:04:06Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Temporalizing Confidence: Evaluation of Chain-of-Thought Reasoning with Signal Temporal Logic [0.12499537119440243]
本稿では,段階的信頼度を時間的信号としてモデル化し,STL(Signal Temporal Logic)を用いて評価する構造化フレームワークを提案する。
特に,定型的なSTLに基づく制約を定義し,望ましい時間特性と,構造化された解釈可能な信頼度推定として機能するスコアを求める。
本手法はキャリブレーションの指標を常に改善し,従来の信頼度集計やポストホックキャリブレーションよりも信頼性の高い不確実性推定を提供する。
論文 参考訳(メタデータ) (2025-06-09T21:21:12Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。