論文の概要: Benchmarking Uncertainty Calibration in Large Language Model Long-Form Question Answering
- arxiv url: http://arxiv.org/abs/2602.00279v1
- Date: Fri, 30 Jan 2026 20:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.091765
- Title: Benchmarking Uncertainty Calibration in Large Language Model Long-Form Question Answering
- Title(参考訳): 大言語モデル長文質問応答における不確かさ校正のベンチマーク
- Authors: Philip Müller, Nicholas Popovič, Michael Färber, Peter Steinbach,
- Abstract要約: 大きな言語モデル(LLM)は質問回答(QA)設定で一般的に使用される。
既存のUQアプローチは、科学的QAでは弱い検証が残っている。
推論要求QAにおけるUQ指標を評価するための,最初の大規模ベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 7.1559850008795385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are commonly used in Question Answering (QA) settings, increasingly in the natural sciences if not science at large. Reliable Uncertainty Quantification (UQ) is critical for the trustworthy uptake of generated answers. Existing UQ approaches remain weakly validated in scientific QA, a domain relying on fact-retrieval and reasoning capabilities. We introduce the first large-scale benchmark for evaluating UQ metrics in reasoning-demanding QA studying calibration of UQ methods, providing an extensible open-source framework to reproducibly assess calibration. Our study spans up to 20 large language models of base, instruction-tuned and reasoning variants. Our analysis covers seven scientific QA datasets, including both multiple-choice and arithmetic question answering tasks, using prompting to emulate an open question answering setting. We evaluate and compare methods representative of prominent approaches on a total of 685,000 long-form responses, spanning different reasoning complexities representative of domain-specific tasks. At the token level, we find that instruction tuning induces strong probability mass polarization, reducing the reliability of token-level confidences as estimates of uncertainty. Models further fine-tuned for reasoning are exposed to the same effect, but the reasoning process appears to mitigate it depending on the provider. At the sequence level, we show that verbalized approaches are systematically biased and poorly correlated with correctness, while answer frequency (consistency across samples) yields the most reliable calibration. In the wake of our analysis, we study and report the misleading effect of relying exclusively on ECE as a sole measure for judging performance of UQ methods on benchmark datasets. Our findings expose critical limitations of current UQ methods for LLMs and standard practices in benchmarking thereof.
- Abstract(参考訳): 大規模言語モデル (LLM) は質問回答 (QA) 設定で一般的に用いられ、科学全般に限らず、自然科学においてますます多く用いられる。
信頼できない不確実性定量化(UQ)は、生成した回答の信頼できる獲得に不可欠である。
既存のUQアプローチは、事実検索と推論能力に依存する領域である科学的なQAにおいて弱い検証がなされている。
我々は,UQ手法の校正を推理するQAにおいて,UQ指標を評価するための最初の大規模ベンチマークを紹介し,校正を再現的に評価するための拡張可能なオープンソースフレームワークを提供する。
我々の研究は、ベース、命令調整、推論のバリエーションで最大20の言語モデルにまたがる。
分析では、複数選択と算術的な問合せタスクを含む7つの科学的QAデータセットについて、オープンな問合せ設定をエミュレートするためにプロンプトを用いた。
本研究では,685,000件の長文応答に対する顕著な手法を評価・比較し,ドメイン固有タスクを表す異なる推論複雑性にまたがる手法について検討した。
トークンレベルでは、命令チューニングは強い確率質量分極を誘導し、不確実性の推定としてトークンレベルの信頼性の信頼性を低下させる。
推論のためにさらに微調整されたモデルは、同じ効果に晒されるが、推論プロセスは、プロバイダによってそれを緩和するように見える。
シーケンスレベルでは,言語化アプローチは体系的に偏りがあり,正しさと相関しにくいが,応答周波数(サンプル間の一貫性)が最も信頼性の高いキャリブレーションが得られることを示す。
分析の結果、ベンチマークデータセット上でのUQ手法の性能を判断するための唯一の尺度として、ECEのみに依存するという誤解を招く効果について研究・報告した。
本研究は,LLMにおける現在のUQ手法の限界と,そのベンチマークにおける標準プラクティスを明らかにした。
関連論文リスト
- UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results [10.551985027162576]
評価では、AUROCのようなメトリクスを使って、UQメソッドがタスクの正しさ関数とどのように相関しているかを評価する。
その結果,UQ法と正当性関数の双方が同一の因子に偏りがある場合,相互バイアスがシステム的に歪曲することがわかった。
LM-as-a-judge法は最短長バイアスであり,より公平なUQ評価の道筋を提供する。
論文 参考訳(メタデータ) (2025-04-18T13:13:42Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。
LLMの既存の不確実量化法(UQ)は、応答性よりも応答性の方が早い。
応答型UQフレームワークであるCoT-UQを提案する。
論文 参考訳(メタデータ) (2025-02-24T14:48:06Z) - Legitimate ground-truth-free metrics for deep uncertainty classification scoring [3.9599054392856483]
製造における不確実性定量化(UQ)手法の使用は依然として限られている。
この制限は、UQ基底真理を欠いたUQ手法を検証するという課題によってさらに悪化する。
本稿では,これらの指標を考察し,理論的に良好であり,実際に不確実な基礎的真理に結びついていることを証明する。
論文 参考訳(メタデータ) (2024-10-30T14:14:32Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。