論文の概要: Can Multiple Responses from an LLM Reveal the Sources of Its Uncertainty?
- arxiv url: http://arxiv.org/abs/2509.04464v1
- Date: Thu, 28 Aug 2025 20:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.889114
- Title: Can Multiple Responses from an LLM Reveal the Sources of Its Uncertainty?
- Title(参考訳): LLMからの複数応答は不確実性の原因を明らかにすることができるか?
- Authors: Yang Nan, Pengfei He, Ravi Tandon, Han Xu,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな領域で大きなブレークスルーをもたらしたが、信頼できない、あるいは誤解を招くアウトプットを生成することができる。
LLMが不確実である場合、その多重応答間の不一致パターンには、不確実性の根本原因に関する深い手がかりが含まれていることが示される。
- 参考スコア(独自算出の注目度): 11.309445539128733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have delivered significant breakthroughs across diverse domains but can still produce unreliable or misleading outputs, posing critical challenges for real-world applications. While many recent studies focus on quantifying model uncertainty, relatively little work has been devoted to \textit{diagnosing the source of uncertainty}. In this study, we show that, when an LLM is uncertain, the patterns of disagreement among its multiple generated responses contain rich clues about the underlying cause of uncertainty. To illustrate this point, we collect multiple responses from a target LLM and employ an auxiliary LLM to analyze their patterns of disagreement. The auxiliary model is tasked to reason about the likely source of uncertainty, such as whether it stems from ambiguity in the input question, a lack of relevant knowledge, or both. In cases involving knowledge gaps, the auxiliary model also identifies the specific missing facts or concepts contributing to the uncertainty. In our experiment, we validate our framework on AmbigQA, OpenBookQA, and MMLU-Pro, confirming its generality in diagnosing distinct uncertainty sources. Such diagnosis shows the potential for relevant manual interventions that improve LLM performance and reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな領域で大きなブレークスルーをもたらしているが、信頼性の低い、あるいは誤解を招くアウトプットを生成することが可能であり、現実世界のアプリケーションにとって重要な課題となっている。
近年の研究では、モデル不確実性の定量化に焦点が当てられているが、不確実性の源を診断する『textit{diagnosing the source of uncertainty} 』に費やされている研究は比較的少ない。
本研究では,LLMが不確実である場合,その多重応答間の不一致パターンには,不確実性の根本原因に関する深い手がかりが含まれていることを示す。
この点を説明するために、ターゲットLLMから複数の応答を収集し、それらの不一致パターンを解析するために補助LLMを用いる。
補助モデルは、入力問題におけるあいまいさ、関連する知識の欠如、あるいはその両方に起因するであろう不確実性の原因を推論する。
知識ギャップを伴う場合、補助モデルは、不確実性に寄与する特定の欠落した事実や概念を特定する。
実験では,AmbigQA,OpenBookQA,MMLU-Proのフレームワークを検証し,異なる不確実性ソースの診断における一般性を確認した。
このような診断は、LCMの性能と信頼性を向上させるための関連する手動介入の可能性を示している。
関連論文リスト
- Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。
従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。
本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T06:56:01Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Knowledge of Knowledge: Exploring Known-Unknowns Uncertainty with Large Language Models [44.117620571329596]
我々は,不確定な回答がないことによる不確実性の高さを特徴とする,未知の疑問に対処することに注力する。
研究を容易にするために,Known-Unknown Questions (KUQ) を用いた新しいデータセットを収集した。
本稿では、このデータセットを用いて微調整したオープンソースのLLMの性能について検討し、未知のクエリと未知のクエリを区別する。
論文 参考訳(メタデータ) (2023-05-23T05:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。