論文の概要: A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering
- arxiv url: http://arxiv.org/abs/2605.08432v1
- Date: Fri, 08 May 2026 19:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.640914
- Title: A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering
- Title(参考訳): オープンエンド質問回答における校正評価のためのセマンティックサンプリングフレームワーク
- Authors: Zhanliang Wang, Jiancong Xiao, Ruochen Jin, Shu Yang, Bojian Hou, Li Shen,
- Abstract要約: 予測されたモデルの信頼度がその経験的精度と一致しているかを測り、大規模言語モデル(LLM)の信頼性デプロイメントの中心となる。
オープンエンド質問応答(QA)のための校正評価フレームワークSem-ECEを紹介する。
フレームワーク内の2つの推定器について検討する。同じサンプルの自己整合性スコアであるSem$-ECEと、自信評価から回答の選択を分離する保留変数であるSem$-ECEである。
- 参考スコア(独自算出の注目度): 19.55210880950831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Calibration measures whether a model's predicted confidence aligns with its empirical accuracy, and is central to the reliable deployment of large language models (LLMs) in high-stakes domains such as medicine and law. While much recent work focuses on improving LLM calibration, the equally important question of how to evaluate it in realistic settings remains underdeveloped. Open-ended question answering (QA), the most common deployment setting for modern LLMs, is where existing evaluation methods fall short: logit-based metrics need restricted output formats and internal probabilities; verbalized confidence is self-reported and often overconfident; and sampling-based methods rely on task-specific extraction rules without a clear finite-sample target. We introduce Sem-ECE (Semantic-Sampling Expected Calibration Error), a calibration evaluation framework for open-ended QA that samples answers from the model, groups them into semantic classes, and uses the resulting frequencies as confidence. We study two estimators within this framework: Sem$_1$-ECE, the same-sample self-consistency score, and Sem$_2$-ECE, a held-out variant that separates answer selection from confidence evaluation. We prove both are asymptotically unbiased, and further show that they agree on easy questions but diverge on hard ones with Sem$_2$ achieving strictly smaller calibration error, so their gap also serves as a diagnostic for question difficulty. Experiments on three open-ended QA benchmarks across five leading commercial LLMs match our theoretical predictions and show that Sem-ECE outperforms verbalized confidence and existing sampling-based methods, while complementing logit-based evaluation when internal probabilities are unavailable.
- Abstract(参考訳): キャリブレーションは、モデルの予測された信頼度がその経験的正確性と一致しているかを測定し、医学や法学などの高度な領域における大規模言語モデル(LLM)の信頼性の高い展開の中心である。
最近の研究はLCM校正の改善に重点を置いているが、現実的な環境でどのように評価するかという重要な問題は未解決のままである。
ログベースのメトリクスには、出力フォーマットと内部確率を制限すること、言語化された信頼度は自己報告され、しばしば過信されること、サンプリングベースのメソッドは、明確な有限サンプルターゲットのないタスク固有の抽出ルールに依存している。
本稿では,Sem-ECE(Semantic-Sampling expecteded Calibration Error)について紹介する。Sem-ECE(Semantic-Sampling expecteded Calibration Error)は,モデルから回答を抽出し,セマンティッククラスに分類し,その結果の周波数を信頼度として利用する,オープンエンドQAの校正評価フレームワークである。
本フレームワークでは,同一サンプルの自己整合性スコアであるSem$_1$-ECEと,信頼度評価から回答選択を分離する保留変数であるSem$_2$-ECEの2つについて検討する。
両者が漸近的に偏りがないことを証明し、簡単な質問に同意するが、Sem$2$のハードな質問は厳密に小さいキャリブレーション誤差を達成するため、それらのギャップは質問の難しさの診断にも役立ちます。
5つの商業LCMを対象とした3つのオープンエンドQAベンチマーク実験は、我々の理論的予測と一致し、Sem-ECEは、内部確率が利用できない場合にロジットに基づく評価を補完しつつ、言語化された信頼度および既存のサンプリングベース手法より優れていることを示した。
関連論文リスト
- Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - Unsupervised Confidence Calibration for Reasoning LLMs from a Single Generation [2.526814143603023]
言語モデルの推論は、ますます複雑なタスクを解決することができるが、信頼性の高いデプロイメントに必要なキャリブレーションされた信頼推定を生成するのに苦労する。
推論時間に1世代しか利用できない場合,LLMを推論するための教師なし信頼度校正手法を提案する。
このアプローチでは、ラベル付きデータのオフラインサンプリングを使用して、自己整合性ベースのプロキシターゲットを導出し、この信号を軽量なデプロイメント時間信頼性予測器に蒸留する。
論文 参考訳(メタデータ) (2026-04-21T13:25:25Z) - Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation [47.91529693614168]
既存の方法は、主に回答ファーストであり、回答を生成した後のみ信頼を生み出す。
モデルが答える前に信頼を出力する信頼第一パラダイムについて検討し、このスコアを正解する確率として解釈する。
我々は,信頼度校正と正解精度をセグメント化された信用代入を通じて協調的に最適化する強化学習フレームワークであるCoCAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:03:13Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。