論文の概要: Measuring Aleatoric and Epistemic Uncertainty in LLMs: Empirical Evaluation on ID and OOD QA Tasks
- arxiv url: http://arxiv.org/abs/2511.03166v1
- Date: Wed, 05 Nov 2025 04:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.319168
- Title: Measuring Aleatoric and Epistemic Uncertainty in LLMs: Empirical Evaluation on ID and OOD QA Tasks
- Title(参考訳): LLMにおける動脈・てんかん不確かさの測定:IDおよびOODQA課題に関する実証的評価
- Authors: Kevin Wang, Subre Abdoul Moktar, Jia Li, Kangshuo Li, Feng Chen,
- Abstract要約: 大規模言語モデル(LLM)はますます普及し、多くの産業や分野にまたがる応用を見いだしている。
本研究では,多様な不確実性推定手法の堅牢性と有効性を検討するための総合的な実証的研究を行った。
- 参考スコア(独自算出の注目度): 11.834264748246008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become increasingly pervasive, finding applications across many industries and disciplines. Ensuring the trustworthiness of LLM outputs is paramount, where Uncertainty Estimation (UE) plays a key role. In this work, a comprehensive empirical study is conducted to examine the robustness and effectiveness of diverse UE measures regarding aleatoric and epistemic uncertainty in LLMs. It involves twelve different UE methods and four generation quality metrics including LLMScore from LLM criticizers to evaluate the uncertainty of LLM-generated answers in Question-Answering (QA) tasks on both in-distribution (ID) and out-of-distribution (OOD) datasets. Our analysis reveals that information-based methods, which leverage token and sequence probabilities, perform exceptionally well in ID settings due to their alignment with the model's understanding of the data. Conversely, density-based methods and the P(True) metric exhibit superior performance in OOD contexts, highlighting their effectiveness in capturing the model's epistemic uncertainty. Semantic consistency methods, which assess variability in generated answers, show reliable performance across different datasets and generation metrics. These methods generally perform well but may not be optimal for every situation.
- Abstract(参考訳): 大規模言語モデル(LLM)はますます普及し、多くの産業や分野にまたがる応用を見いだしている。
LLM出力の信頼性を保証することが最重要であり、不確実性推定(UE)が重要な役割を果たす。
本研究は, LLMにおける動脈硬化性およびてんかん性不確実性に関する多種多様なUE尺度の堅牢性と有効性を検討するための総合的研究である。
LLM批判者からのLLMScoreを含む12種類のUEメソッドと4世代品質メトリクスが関係しており、イン・ディストリビューション(ID)とアウト・オブ・ディストリビューション(OOD)の両方のデータセットにおける質問応答(QA)タスクにおけるLLM生成回答の不確実性を評価する。
分析の結果,トークンやシーケンスの確率を利用した情報ベースの手法は,データの理解と整合性があるため,ID設定において極めて良好に機能することがわかった。
逆に、密度に基づく手法とP(True)計量は、OODコンテキストにおいて優れた性能を示し、そのモデルのてんかん不確かさを捉える効果を強調している。
生成した回答の変動性を評価するセマンティック一貫性手法は、異なるデータセットと生成メトリクス間で信頼性の高いパフォーマンスを示す。
これらの手法は一般的によく機能するが、あらゆる状況に最適ではないかもしれない。
関連論文リスト
- Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - On Robustness and Reliability of Benchmark-Based Evaluation of LLMs [6.121856629864516]
LLM(Large Language Models)の有効性は通常、MMLU、ARC-C、HellaSwagなどのベンチマークによって評価される。
実世界のアプリケーションは言語的多様性を伴い、同じ質問やクエリの様々なリワードでモデルの有効性を維持する必要がある。
そこで我々は,LLMの頑健さをベンチマーク問題に言い換えて体系的に評価し,ベンチマークに基づく評価がモデル能力の信頼性を評価できるかどうかを検証した。
論文 参考訳(メタデータ) (2025-09-04T08:43:27Z) - An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文 参考訳(メタデータ) (2025-02-15T07:45:20Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in Generative LLMs [25.140644986988487]
不確実性評価のための長さ正規化スコアリング(UE)の代替として,MARS(Meaning-Aware Response Scoring)を提案する。
MARSは、質問の文脈において生成されたシーケンスにおける各トークンのセマンティックコントリビューションを考慮に入れた、新しいスコアリング機能である。
UE手法にMARSを組み込むことにより,UE性能の普遍的かつ大幅な向上が期待できることを示す。
論文 参考訳(メタデータ) (2024-02-19T01:04:22Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。