論文の概要: Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers
- arxiv url: http://arxiv.org/abs/2602.07842v1
- Date: Sun, 08 Feb 2026 07:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.829243
- Title: Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers
- Title(参考訳): 複数回答を用いた質問に対するLCM信頼度の評価と校正
- Authors: Yuhan Wang, Shiyu Ni, Zhikai Ding, Zihang Zhan, Yuanzi Li, Keping Bi,
- Abstract要約: 既存のトレーニングフリー手法は,複数の有効な回答が存在する場合に故障することを示す。
本稿では,複数の高確率サンプル応答に対する信頼を集約するセマンティック信頼集約(SCA)を提案する。
SCAは、単一質問に対する強いキャリブレーションを維持しながら、混合回答設定下での最先端のキャリブレーション性能を達成する。
- 参考スコア(独自算出の注目度): 11.832359446987551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confidence calibration is essential for making large language models (LLMs) reliable, yet existing training-free methods have been primarily studied under single-answer question answering. In this paper, we show that these methods break down in the presence of multiple valid answers, where disagreement among equally correct responses leads to systematic underestimation of confidence. To enable a systematic study of this phenomenon, we introduce MACE, a benchmark of 12,000 factual questions spanning six domains with varying numbers of correct answers. Experiments across 15 representative calibration methods and four LLM families (7B-72B) reveal that while accuracy increases with answer cardinality, estimated confidence consistently decreases, causing severe miscalibration for questions with mixed answer counts. To address this issue, we propose Semantic Confidence Aggregation (SCA), which aggregates confidence over multiple high-probability sampled responses. SCA achieves state-of-the-art calibration performance under mixed-answer settings while preserving strong calibration on single-answer questions.
- Abstract(参考訳): 信頼度校正は大規模言語モデル(LLM)を信頼性のあるものにするために不可欠であるが、既存のトレーニング不要の手法は、主に単問問答の下で研究されている。
本稿では,これらの手法が複数の有効解が存在する場合に分解され,等しく正しい応答の相違が信頼の体系的過小評価に繋がることを示す。
この現象を体系的に研究するために,6つの領域にまたがる12,000の事実質問のベンチマークであるMACEを導入する。
15の代表的な校正法と4つのLLMファミリー (7B-72B) による実験では、解答基準によって精度が向上する一方、推定された信頼度は一貫して減少し、解答数の混合した質問に対する深刻な誤判定が生じることが示された。
この問題に対処するために,複数の高確率サンプル応答に対する信頼性を集約するセマンティック信頼集約(SCA)を提案する。
SCAは、単一質問に対する強いキャリブレーションを維持しながら、混合回答設定下での最先端のキャリブレーション性能を達成する。
関連論文リスト
- Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。
マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-30T19:19:21Z) - Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models [34.59785123314865]
LLM(Large Language Models)の安全かつ信頼性の高い使用には、その回答に対する信頼性の正確な表現が必要である。
そこで本研究では,LLMを直接微調整し,評価された信頼度を,実際の質問に対する回答とともに表現できる新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T13:48:50Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,大規模言語モデルによって生成された複数の出力の自己整合性に基づいて,応答正当性を評価するための補助学習モデルを提案する。
提案手法は,複数応答間の一致を表現するために整合性グラフを構築し,グラフニューラルネットワーク(GNN)を用いて各応答の正しさを推定する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Reconfidencing LLMs from the Grouping Loss Perspective [56.801251926946485]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。