論文の概要: Asking Is Not Enough: Protocol Sensitivity in LLM Confidence Calibration
- arxiv url: http://arxiv.org/abs/2605.27752v1
- Date: Tue, 26 May 2026 23:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.59008
- Title: Asking Is Not Enough: Protocol Sensitivity in LLM Confidence Calibration
- Title(参考訳): LLM Confidence Calibrationにおけるプロトコルの感度
- Authors: Hankyeol Kim, Pilsung Kang,
- Abstract要約: LLMの信頼性校正は、トークン確率スコアと言語的信頼の2つの信号を比較することで評価されることが多い。
我々は、動詞化-vs-token比較を定義する測度軸を変化させる。
両信頼性信号はプロトコルに依存した行動測定として扱うべきである。
- 参考スコア(独自算出の注目度): 3.450547277166974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM confidence calibration is often evaluated by comparing two signals: token-probability scores and verbalized confidence. These signals are sometimes treated as direct readouts of model uncertainty, but their comparison depends on measurement choices that are rarely made explicit. In the main analysis, we hold the verbalized-confidence elicitation fixed: a single prompt template, probability scale, and output format. We then vary the measurement axes that define the verbalized-vs-token comparison: which answer string receives the token-probability score, how that score is read from the answer tokens, and under which conditioning context it is measured. We evaluate this design on four QA benchmarks across three open 7--8B base/Instruct model families, with larger Qwen2.5 variants as same-family robustness checks. The resulting comparison is sensitive to these choices: conditioning context changes the sign or magnitude of the ECE gap across settings, token readout produces smaller but still sign-moving changes, and changing the ECE estimator has little effect. Under the default generated-answer, bare-context protocol, Instruct settings are close to parity rather than showing a large calibration gain for verbalized confidence. In a separate supplied-answer analysis, surface-plausible wrong answers receive nearly the same confidence as supplied gold answers, suggesting that verbalized confidence also reflects answer plausibility and provenance rather than correctness alone. We argue that both confidence signals should be treated as protocol-dependent behavioral measurements, and provide a reporting checklist covering elicitation provenance, scored answer, token-probability readout, and conditioning context.
- Abstract(参考訳): LLMの信頼性校正は、トークン確率スコアと言語的信頼の2つの信号を比較することで評価されることが多い。
これらの信号は、しばしばモデル不確実性の直接的な読み出しとして扱われるが、それらの比較は、ほとんど明示されない測定選択に依存する。
主解析では,1つのプロンプトテンプレート,確率尺度,出力形式という,言語化された信頼度を固定する。
次に、動詞化-vs-token比較を定義する測定軸を変動させ、どの応答文字列がトークン確率スコアを受け取り、そのスコアが応答トークンからどのように読み取られ、どの条件付きコンテキストで測定されるかを決定する。
3つのオープン 7--8B ベース/インストラクトモデルファミリにまたがる 4 つの QA ベンチマークでこの設計を評価する。
コンディショニングコンテキストは、設定間でECEギャップの符号や大きさを変更し、トークンの読み出しは、小さいが、まだサイン-ムーブな変更を生成し、ECE推定器を変更することは、ほとんど効果がない。
既定で生成されるベアコンテキストプロトコルでは、インストラクション設定は、言語化された信頼性のために大きなキャリブレーションゲインを示すのではなく、同等に近い。
別々に提供された回答分析では、表裏の証明可能な間違った答えは、供給された金の答えとほぼ同じ自信を受け取り、言語化された信頼もまた、正しさのみではなく、答えの妥当性と証明性を反映していることを示唆している。
両信頼性信号はプロトコルに依存した行動測定として扱われるべきであり,提案手法は,提案手法の帰結,解答,トークン確率の読み出し,条件付きコンテキストを網羅した報告チェックリストを提供する。
関連論文リスト
- A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering [19.55210880950831]
予測されたモデルの信頼度がその経験的精度と一致しているかを測り、大規模言語モデル(LLM)の信頼性デプロイメントの中心となる。
オープンエンド質問応答(QA)のための校正評価フレームワークSem-ECEを紹介する。
フレームワーク内の2つの推定器について検討する。同じサンプルの自己整合性スコアであるSem$-ECEと、自信評価から回答の選択を分離する保留変数であるSem$-ECEである。
論文 参考訳(メタデータ) (2026-05-08T19:53:49Z) - What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models [0.0]
シングルプロンプト精度は、言語モデルをベンチマークする主要な方法であるが、重要な信頼性障害を見逃す可能性がある。
15モデルオープンウェイトコーパスの評価を行い,5つの分類と推論ベンチマークによる10のインストラクトモデルに着目した信頼性解析を行った。
まず、評価設計は結論を根本的に変えることができる。
第2に、信頼信号は脆弱である。MMLU-Proでは、各プライマリモデルは、その精度と同一行上のトークン確率信頼の両方よりもかなり高い信頼度を言語的に報告し、単一のプロンプト変種における単一のモデルに対して、動詞のパースレートが崩壊する可能性がある。
論文 参考訳(メタデータ) (2026-05-03T20:05:08Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs [16.357595595062946]
植民地の後に空間をトークン化する方法には合意がないが、しばしば自明な選択として見過ごされる。
驚いたことに、私たちは1つの特定の戦略 -- 回答のレターとともにスペースをトークン化する -- を推奨できます。
本研究は、注意深い評価設計の重要性を強調し、標準化された透明な評価プロトコルの必要性を強調した。
論文 参考訳(メタデータ) (2025-09-18T14:47:58Z) - Uncertainty Distillation: Teaching Language Models to Express Semantic Confidence [16.311538811237536]
大規模言語モデル (LLM) は、事実質問に対する回答にますます使われている。
これらの不確実性の言葉化表現が意味を持つためには、表現された信頼度レベルでエラー率を反映すべきである。
そこで本研究では,LLMにセマンティック信頼度を校正する簡単な方法である不確かさ蒸留法を提案する。
論文 参考訳(メタデータ) (2025-03-18T21:29:29Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。