論文の概要: Temporalizing Confidence: Evaluation of Chain-of-Thought Reasoning with Signal Temporal Logic
- arxiv url: http://arxiv.org/abs/2506.08243v1
- Date: Mon, 09 Jun 2025 21:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.768173
- Title: Temporalizing Confidence: Evaluation of Chain-of-Thought Reasoning with Signal Temporal Logic
- Title(参考訳): 時間的信頼:信号時相論理によるチェーン・オブ・ソート推論の評価
- Authors: Zhenjiang Mao, Artem Bisliouk, Rohith Reddy Nama, Ivan Ruchkin,
- Abstract要約: 本稿では,段階的信頼度を時間的信号としてモデル化し,STL(Signal Temporal Logic)を用いて評価する構造化フレームワークを提案する。
特に,定型的なSTLに基づく制約を定義し,望ましい時間特性と,構造化された解釈可能な信頼度推定として機能するスコアを求める。
本手法はキャリブレーションの指標を常に改善し,従来の信頼度集計やポストホックキャリブレーションよりも信頼性の高い不確実性推定を提供する。
- 参考スコア(独自算出の注目度): 0.12499537119440243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown impressive performance in mathematical reasoning tasks when guided by Chain-of-Thought (CoT) prompting. However, they tend to produce highly confident yet incorrect outputs, which poses significant risks in domains like education, where users may lack the expertise to assess reasoning steps. To address this, we propose a structured framework that models stepwise confidence as a temporal signal and evaluates it using Signal Temporal Logic (STL). In particular, we define formal STL-based constraints to capture desirable temporal properties and compute robustness scores that serve as structured, interpretable confidence estimates. Our approach also introduces a set of uncertainty reshaping strategies to enforce smoothness, monotonicity, and causal consistency across the reasoning trajectory. Experiments show that our approach consistently improves calibration metrics and provides more reliable uncertainty estimates than conventional confidence aggregation and post-hoc calibration.
- Abstract(参考訳): 大規模言語モデル (LLM) は、Chain-of-Thought (CoT) のプロンプトによって導かれる数学的推論タスクにおいて、顕著な性能を示している。
しかし、彼らは高い自信を持つが誤ったアウトプットを産み出す傾向があり、これは教育のようなドメインにおいて大きなリスクをもたらし、ユーザーは推論手順を評価するための専門知識が欠如している可能性がある。
そこで我々は,段階的に信頼度を時間的信号としてモデル化し,STL(Signal Temporal Logic)を用いて評価する構造化フレームワークを提案する。
特に,所望の時間的特性を捉えるための形式的STLに基づく制約と,構造化された解釈可能な信頼度推定として機能する頑健性スコアを定式化する。
提案手法ではまた,不確実な再形成戦略を導入し,推論軌道のスムーズ性,単調性,因果一貫性を実現する。
実験により,本手法はキャリブレーションの指標を常に改善し,従来のアグリゲーションアグリゲーションやポストホックキャリブレーションよりも信頼性の高い不確実性推定を提供することが示された。
関連論文リスト
- Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Aurora: Are Android Malware Classifiers Reliable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAはさらに、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完されている。
最先端のフレームワークで観察する脆弱さは、ホワイトボードに戻る必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。
LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。
本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - FTS: A Framework to Find a Faithful TimeSieve [27.500523513445497]
本稿では,TimeSieveにおける不信の識別と修正を目的とした新しいフレームワークを提案する。
我々のフレームワークはモデルの安定性とレジリエンスを高めるために設計されており、その出力が上記の要因の影響を受けないようにしている。
論文 参考訳(メタデータ) (2024-05-30T02:59:49Z) - Score Matching-based Pseudolikelihood Estimation of Neural Marked
Spatio-Temporal Point Process with Uncertainty Quantification [59.81904428056924]
我々は、不確実な定量化を伴うmarkPsを学習するためのスコアMAtching推定器であるSMASHを紹介する。
具体的には,スコアマッチングによるマークPsの擬似的類似度を推定することにより,正規化自由度を推定する。
提案手法の優れた性能は、事象予測と不確実性定量化の両方において広範な実験によって実証される。
論文 参考訳(メタデータ) (2023-10-25T02:37:51Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。