論文の概要: MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty
- arxiv url: http://arxiv.org/abs/2408.06816v1
- Date: Tue, 13 Aug 2024 11:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-14 17:46:21.979303
- Title: MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty
- Title(参考訳): MAQA:データの不確実性に関するLCMの不確実性定量評価
- Authors: Yongjin Yang, Haneul Yoo, Hwaran Lee,
- Abstract要約: 我々は,世界知識,数学的推論,コモンセンス推論タスクからなるMulti-Answer Question Answering データセット MAQA を提案する。
その結果,データ不確実性の下でも,エントロピーと一貫性に基づく手法がモデルの不確実性をよく推定できることが示唆された。
我々は、我々の観察が、現実的な環境での不確実性定量化に関する今後の研究の道を開くと信じている。
- 参考スコア(独自算出の注目度): 10.154013836043816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models (LLMs) are capable of performing various tasks, they still suffer from producing plausible but incorrect responses. To improve the reliability of LLMs, recent research has focused on uncertainty quantification to predict whether a response is correct or not. However, most uncertainty quantification methods have been evaluated on questions requiring a single clear answer, ignoring the existence of data uncertainty that arises from irreducible randomness. Instead, these methods only consider model uncertainty, which arises from a lack of knowledge. In this paper, we investigate previous uncertainty quantification methods under the presence of data uncertainty. Our contributions are two-fold: 1) proposing a new Multi-Answer Question Answering dataset, MAQA, consisting of world knowledge, mathematical reasoning, and commonsense reasoning tasks to evaluate uncertainty quantification regarding data uncertainty, and 2) assessing 5 uncertainty quantification methods of diverse white- and black-box LLMs. Our findings show that entropy and consistency-based methods estimate the model uncertainty well even under data uncertainty, while other methods for white- and black-box LLMs struggle depending on the tasks. Additionally, methods designed for white-box LLMs suffer from overconfidence in reasoning tasks compared to simple knowledge queries. We believe our observations will pave the way for future work on uncertainty quantification in realistic setting.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクを実行できるが、それでももっともらしいが誤った反応を生じさせることに苦しむ。
LLMの信頼性を向上させるため、最近の研究では、応答が正しいかどうかを予測する不確実性定量化に焦点を当てている。
しかし、ほとんどの不確実性定量化法は、既約ランダム性から生じるデータ不確実性の存在を無視して、単一の明確な答えを必要とする質問に対して評価されている。
代わりに、これらの手法は、知識の欠如から生じるモデルの不確実性のみを考慮する。
本稿では,データ不確実性の存在下での過去の不確実性定量化手法について検討する。
私たちの貢献は2つあります。
1)Multi-Answer Question Answering dataset, MAQA(世界知識、数学的推論、常識推論タスク)を提案し、データの不確実性に関する不確実性定量化を評価する。
2) 多様な白と黒のLLMの5つの不確実性定量化手法を評価する。
その結果,データ不確実性の下でも,エントロピーと一貫性に基づく手法がモデル不確実性をよく推定し,一方,白黒 LLM の他の手法はタスクによっては困難であることがわかった。
さらに、ホワイトボックスLLM用に設計された手法は、単純な知識クエリと比較して、タスクの推論において過度な自信に悩まされる。
我々は、我々の観察が、現実的な環境での不確実性定量化に関する今後の研究の道を開くと信じている。
関連論文リスト
- A Survey of Uncertainty Estimation Methods on Large Language Models [12.268958536971782]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示している。
これらのモデルでは、偏見、幻覚、あるいは非現実的な反応が、その流感と現実的な外観によってもたらされる可能性がある。
不確実性推定がこの課題に対処する鍵となる方法である。
論文 参考訳(メタデータ) (2025-02-28T20:38:39Z) - Probabilistic Modeling of Disparity Uncertainty for Robust and Efficient Stereo Matching [61.73532883992135]
本稿では,新しい不確実性を考慮したステレオマッチングフレームワークを提案する。
我々はベイズリスクを不確実性の測定として採用し、データを別々に見積もり、不確実性をモデル化する。
論文 参考訳(メタデータ) (2024-12-24T23:28:20Z) - Question Rephrasing for Quantifying Uncertainty in Large Language Models: Applications in Molecular Chemistry Tasks [4.167519875804914]
大規模言語モデル(LLM)の入力不確実性を評価するための新しい質問文記述手法を提案する。
この手法はLLMの出力不確実性を測定するサンプリング手法と統合され、より包括的な不確実性評価を提供する。
論文 参考訳(メタデータ) (2024-08-07T12:38:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - A Structured Review of Literature on Uncertainty in Machine Learning & Deep Learning [0.8667724053232616]
我々は、リスクに敏感なアプリケーション、すなわち不確実性を理解し、定量化するアプリケーションにおいて、機械学習を適応するための重要な関心事に焦点を当てる。
本稿では,このトピックを構造化した方法でアプローチし,不確実性がMLプロセスに封入されているというさまざまな側面の文献をレビューする。
このレビューの主な貢献は、不確実性議論の範囲を広げ、Deep Learningにおける不確実性定量化手法のレビューを更新することである。
論文 参考訳(メタデータ) (2024-06-01T07:17:38Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。
LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。
本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文 参考訳(メタデータ) (2024-04-24T17:10:35Z) - Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。
このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。
人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文 参考訳(メタデータ) (2024-04-16T23:56:38Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - One step closer to unbiased aleatoric uncertainty estimation [71.55174353766289]
そこで本研究では,観測データのアクティブデノイズ化による新しい推定手法を提案する。
幅広い実験を行うことで,提案手法が標準手法よりも実際のデータ不確実性にはるかに近い近似を与えることを示す。
論文 参考訳(メタデータ) (2023-12-16T14:59:11Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。