論文の概要: Rethinking LLM Uncertainty: A Multi-Agent Approach to Estimating Black-Box Model Uncertainty
- arxiv url: http://arxiv.org/abs/2412.09572v2
- Date: Mon, 20 Oct 2025 21:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:02.921918
- Title: Rethinking LLM Uncertainty: A Multi-Agent Approach to Estimating Black-Box Model Uncertainty
- Title(参考訳): LLMの不確かさを再考する:ブラックボックスモデルの不確かさを推定するためのマルチエージェントアプローチ
- Authors: Yu Feng, Phu Mon Htut, Zheng Qi, Wei Xiao, Manuel Mager, Nikolaos Pappas, Kishaloy Halder, Yang Li, Yassine Benajiba, Dan Roth,
- Abstract要約: ブラックボックスLSMの不確実性の定量化は、信頼性の高い応答とスケーラブルな監視に不可欠である。
本研究では,不確実性推定にマルチエージェント相互作用を用いた新しい理論的基礎手法であるDiverseAgentEntropyを紹介する。
- 参考スコア(独自算出の注目度): 47.95943057892318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying uncertainty in black-box LLMs is vital for reliable responses and scalable oversight. Existing methods, which gauge a model's uncertainty through evaluating self-consistency in responses to the target query, can be misleading: an LLM may confidently provide an incorrect answer to a target query, yet give a confident and accurate answer to that same target query when answering a knowledge-preserving perturbation of the query. We systematically analyze the model behaviors and demonstrate that this discrepancy stems from suboptimal retrieval of parametric knowledge, often due to contextual biases that prevent consistent access to stored knowledge. We then introduce DiverseAgentEntropy, a novel, theoretically-grounded method employing multi-agent interaction across diverse query variations for uncertainty estimation of black-box LLMs. This approach more accurately assesses an LLM's true uncertainty and improves hallucination detection, outperforming existing self-consistency based techniques.
- Abstract(参考訳): ブラックボックスLSMにおける不確実性の定量化は、信頼性の高い応答とスケーラブルな監視に不可欠である。
対象クエリに対する自己整合性を評価することによって、モデルの不確実性を評価する既存の方法は誤解を招く可能性がある: LLMは、ターゲットクエリに対して自信を持って誤った回答を提供するが、クエリの知識保存の摂動に答える際に、同じターゲットクエリに対して自信を持って正確な回答を与える。
モデル動作を体系的に解析し、この相違がパラメトリック知識の最適下探索に起因していることを示し、しばしば、記憶された知識への一貫したアクセスを防止するようなコンテキストバイアスによって生じる。
次に, ブラックボックスLLMの不確実性評価のために, 多様なクエリのバリエーションにまたがるマルチエージェントインタラクションを用いた, 理論的に基礎的な手法であるDiverseAgentEntropyを紹介する。
このアプローチはLLMの真の不確実性をより正確に評価し、幻覚検出を改善し、既存の自己整合性に基づく技術より優れている。
関連論文リスト
- Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。
マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-30T19:19:21Z) - Variability Need Not Imply Error: The Case of Adequate but Semantically Distinct Responses [7.581259361859477]
不確実性定量化ツールは、モデルが不確実である場合の応答を拒否するために使用できます。
我々は、モデルがAdequate Responses (PROBAR)に割り当てる確率を推定する。
ProBARはアンビグニティ/オープンエンディエントネスの異なるプロンプトでセマンティックエントロピーを上回ります。
論文 参考訳(メタデータ) (2024-12-20T09:02:26Z) - Testing Uncertainty of Large Language Models for Physics Knowledge and Reasoning [0.0]
大規模言語モデル(LLM)は、近年、様々な分野の質問に答える能力で大きな人気を集めている。
本稿では,オープンソースLLMの性能評価のための解析手法を提案する。
我々は,物理に関する話題における解答精度と変数の関係に注目した。
論文 参考訳(メタデータ) (2024-11-18T13:42:13Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Just rephrase it! Uncertainty estimation in closed-source language models via multiple rephrased queries [6.249216559519607]
元のベースクエリの複数の言い換えにより,クローズドソースの大規模言語モデルの不確かさを推定する。
本手法は, ベースラインと比較して不確実性推定の校正精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2024-05-22T18:28:26Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。