論文の概要: Improving Semantic Uncertainty Quantification in Language Model Question-Answering via Token-Level Temperature Scaling
- arxiv url: http://arxiv.org/abs/2604.07172v1
- Date: Wed, 08 Apr 2026 15:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.597002
- Title: Improving Semantic Uncertainty Quantification in Language Model Question-Answering via Token-Level Temperature Scaling
- Title(参考訳): 言語モデルにおける意味的不確かさの定量化の改善-Token-Level温度スケーリングによる回答
- Authors: Tom A. Lamb, Desi R. Ivanova, Philip H. S. Torr, Tim G. J. Rudner,
- Abstract要約: 現状のアプローチ,特に温度の固定化は,系統的に誤校正され,識別性に欠けるセマンティックな信頼性分布を生じさせることを示す。
一つの温度を最適化することは、適切な帰納バイアスをもたらすと我々は主張するが、驚くほど単純だが効果的な解であることを示した。
- 参考スコア(独自算出の注目度): 55.29156356409814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Calibration is central to reliable semantic uncertainty quantification, yet prior work has largely focused on discrimination, neglecting calibration. As calibration and discrimination capture distinct aspects of uncertainty, focusing on discrimination alone yields an incomplete picture. We address this gap by systematically evaluating both aspects across a broad set of confidence measures. We show that current approaches, particularly fixed-temperature heuristics, produce systematically miscalibrated and poorly discriminative semantic confidence distributions. We demonstrate that optimising a single scalar temperature, which, we argue, provides a suitable inductive bias, is a surprisingly simple yet effective solution. Our exhaustive evaluation confirms that temperature scaling consistently improves semantic calibration, discrimination, and downstream entropy, outperforming both heuristic baselines and more expressive token-level recalibration methods on question-answering tasks.
- Abstract(参考訳): キャリブレーションは信頼性のあるセマンティック不確実性定量化の中心であるが、以前の研究は差別に重点を置いており、キャリブレーションを無視している。
校正と差別が不確実性の異なる側面を捉えているため、差別のみに焦点を合わせると、不完全なイメージが得られる。
このギャップに対処するため、幅広い信頼度尺度の両側面を体系的に評価する。
現状のアプローチ,特に温度の一定なヒューリスティックスは,系統的に誤校正され,識別性に欠けるセマンティックな信頼性分布を生成する。
一つのスカラー温度を最適化することは、適切な帰納バイアスをもたらすと我々は主張するが、驚くほど単純で効果的な解である。
総括評価の結果,温度スケーリングはセマンティックキャリブレーション,識別,下流のエントロピーを一貫して改善し,ヒューリスティックベースラインとより表現力の高いトークンレベルのリカレーション手法よりも優れていることがわかった。
関連論文リスト
- From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty [9.798854302346802]
解釈可能で校正された不確実性を表現できる大規模言語モデル(LLM)は、高い領域において不可欠である。
そこで我々は,LLM後の3段階パイプラインを提案し,その応答に対する不確実性評価を効率的に推定する。
実験により、パイプラインでトレーニングされたモデルは、ベースラインよりもキャリブレーションが良く、さらなる処理をすることなく、目に見えないタスクに一般化できることが示された。
論文 参考訳(メタデータ) (2026-03-06T14:21:42Z) - Calibrating Uncertainty for Zero-Shot Adversarial CLIP [33.707647228637114]
予測精度と不確実性アライメントの両方を考慮した,CLIPの新たな逆調整目標を提案する。
我々の目的は、これらの分布を摂動の下で均等に整列させ、シングルログのアンカーを超えて不確実性を回復することである。
論文 参考訳(メタデータ) (2025-12-15T05:41:08Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - Probabilistic Modeling of Disparity Uncertainty for Robust and Efficient Stereo Matching [61.73532883992135]
本稿では,新しい不確実性を考慮したステレオマッチングフレームワークを提案する。
我々はベイズリスクを不確実性の測定として採用し、データを別々に見積もり、不確実性をモデル化する。
論文 参考訳(メタデータ) (2024-12-24T23:28:20Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Improving model calibration with accuracy versus uncertainty
optimization [17.056768055368384]
適切に校正されたモデルは、その予測が確実であるときに正確であり、不正確な場合に高い不確実性を示すべきである。
精度と不確実性の関係を不確実性校正のアンカーとして活用する最適化手法を提案する。
平均場変動推定によるアプローチの実証と最先端手法との比較を行った。
論文 参考訳(メタデータ) (2020-12-14T20:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。