論文の概要: MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty
- arxiv url: http://arxiv.org/abs/2408.06816v2
- Date: Mon, 31 Mar 2025 13:03:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:31:28.903834
- Title: MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty
- Title(参考訳): MAQA:データの不確実性に関するLCMの不確実性定量評価
- Authors: Yongjin Yang, Haneul Yoo, Hwaran Lee,
- Abstract要約: データ不確実性の存在下での過去の不確実性定量化手法について検討する。
以上の結果から,従来の手法はシングル・アンサー・セッティングに比べて比較的困難であったことが示唆された。
我々は,データ不確実性が存在する場合でも,エントロピーと一貫性に基づく手法がモデル不確実性を効果的に推定することを示した。
- 参考スコア(独自算出の注目度): 10.154013836043816
- License:
- Abstract: Despite the massive advancements in large language models (LLMs), they still suffer from producing plausible but incorrect responses. To improve the reliability of LLMs, recent research has focused on uncertainty quantification to predict whether a response is correct or not. However, most uncertainty quantification methods have been evaluated on single-labeled questions, which removes data uncertainty: the irreducible randomness often present in user queries, which can arise from factors like multiple possible answers. This limitation may cause uncertainty quantification results to be unreliable in practical settings. In this paper, we investigate previous uncertainty quantification methods under the presence of data uncertainty. Our contributions are two-fold: 1) proposing a new Multi-Answer Question Answering dataset, MAQA, consisting of world knowledge, mathematical reasoning, and commonsense reasoning tasks to evaluate uncertainty quantification regarding data uncertainty, and 2) assessing 5 uncertainty quantification methods of diverse white- and black-box LLMs. Our findings show that previous methods relatively struggle compared to single-answer settings, though this varies depending on the task. Moreover, we observe that entropy- and consistency-based methods effectively estimate model uncertainty, even in the presence of data uncertainty. We believe these observations will guide future work on uncertainty quantification in more realistic settings.
- Abstract(参考訳): 大きな言語モデル (LLM) の大幅な進歩にもかかわらず、彼らは依然として、もっともらしいが誤った反応を生じさせることに苦しむ。
LLMの信頼性を向上させるため、最近の研究では、応答が正しいかどうかを予測する不確実性定量化に焦点を当てている。
しかし、ほとんどの不確実性定量化手法は、データの不確実性を取り除くシングルラベルの質問に対して評価されている。
この制限は、実際の環境での不確実な定量化結果が信頼できないことを引き起こす可能性がある。
本稿では,データ不確実性の存在下での過去の不確実性定量化手法について検討する。
私たちの貢献は2つあります。
1)Multi-Answer Question Answering dataset, MAQA(世界知識、数学的推論、常識推論タスク)を提案し、データの不確実性に関する不確実性定量化を評価する。
2) 多様な白と黒のLLMの5つの不確実性定量化手法を評価する。
本研究の結果から,従来の手法は単一回答設定よりも難易度が高かったが,タスクによって異なることがわかった。
さらに,データ不確実性が存在する場合でも,エントロピーおよび一貫性に基づく手法がモデル不確実性を効果的に推定することを示した。
これらの観測は、より現実的な環境での不確実性定量化に関する今後の研究を導くだろうと考えている。
関連論文リスト
- Uncertainty Quantification in Stereo Matching [61.73532883992135]
ステレオマッチングのための新しいフレームワークとその不確実性定量化を提案する。
我々は、不確実性と推定データの尺度としてベイズリスクを採用し、個別に不確実性をモデル化する。
我々は,不確実性の少ないデータポイントを選択することにより,予測精度を向上させるために不確実性手法を適用した。
論文 参考訳(メタデータ) (2024-12-24T23:28:20Z) - Question Rephrasing for Quantifying Uncertainty in Large Language Models: Applications in Molecular Chemistry Tasks [4.167519875804914]
大規模言語モデル(LLM)の入力不確実性を評価するための新しい質問文記述手法を提案する。
この手法はLLMの出力不確実性を測定するサンプリング手法と統合され、より包括的な不確実性評価を提供する。
論文 参考訳(メタデータ) (2024-08-07T12:38:23Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。
LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。
本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文 参考訳(メタデータ) (2024-04-24T17:10:35Z) - Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。
このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。
人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文 参考訳(メタデータ) (2024-04-16T23:56:38Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。