論文の概要: Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models
- arxiv url: http://arxiv.org/abs/2508.08139v1
- Date: Mon, 11 Aug 2025 16:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.200094
- Title: Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models
- Title(参考訳): LLMは相反を検知できるか?不確実性を考慮した言語モデルの信頼性を推定する
- Authors: Tianyi Zhou, Johanne Medina, Sanjay Chawla,
- Abstract要約: LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
- 参考スコア(独自算出の注目度): 24.72990207218907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are prone to generating fluent but incorrect content, known as confabulation, which poses increasing risks in multi-turn or agentic applications where outputs may be reused as context. In this work, we investigate how in-context information influences model behavior and whether LLMs can identify their unreliable responses. We propose a reliability estimation that leverages token-level uncertainty to guide the aggregation of internal model representations. Specifically, we compute aleatoric and epistemic uncertainty from output logits to identify salient tokens and aggregate their hidden states into compact representations for response-level reliability prediction. Through controlled experiments on open QA benchmarks, we find that correct in-context information improves both answer accuracy and model confidence, while misleading context often induces confidently incorrect responses, revealing a misalignment between uncertainty and correctness. Our probing-based method captures these shifts in model behavior and improves the detection of unreliable outputs across multiple open-source LLMs. These results underscore the limitations of direct uncertainty signals and highlight the potential of uncertainty-guided probing for reliability-aware generation.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、畳み込み(confabulation)として知られる、流動的だが誤ったコンテンツを生成する傾向がある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
トークンレベルの不確実性を利用して内部モデル表現の集約を導出する信頼性推定を提案する。
具体的には、出力ロジットからのアレタリックおよびエピステマティック不確かさを計算し、正当性トークンを特定し、その隠れた状態を応答レベルの信頼性予測のためのコンパクトな表現に集約する。
オープンQAベンチマークの制御実験により、正しいコンテキスト情報によって応答精度とモデルの信頼性が向上するのに対し、誤解を招くコンテキストはしばしば確実な応答を誘導し、不確かさと正しさの相違を明らかにする。
提案手法は,モデル動作のこれらの変化を捕捉し,複数のオープンソースLCM間の信頼できない出力の検出を改善する。
これらの結果は、直接不確実性信号の限界を浮き彫りにして、信頼性を意識した生成のための不確実性誘導探索の可能性を強調している。
関連論文リスト
- Uncertainty Distillation: Teaching Language Models to Express Semantic Confidence [16.311538811237536]
大規模言語モデル (LLM) は、事実質問に対する回答にますます使われている。
これらの不確実性の言葉化表現が意味を持つためには、表現された信頼度レベルでエラー率を反映すべきである。
そこで本研究では,LLMにセマンティック信頼度を校正する簡単な方法である不確かさ蒸留法を提案する。
論文 参考訳(メタデータ) (2025-03-18T21:29:29Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Label-Confidence-Aware Uncertainty Estimation in Natural Language Generation [8.635811152610604]
不確実性定量化(UQ)は、AIシステムの安全性と堅牢性を保証するために不可欠である。
サンプルとラベルソース間の分岐に基づくラベル信頼度(LCA)の不確実性評価を提案する。
論文 参考訳(メタデータ) (2024-12-10T07:35:23Z) - Enhancing Trust in Large Language Models with Uncertainty-Aware Fine-Tuning [10.457661605916435]
大規模言語モデル(LLM)は、その印象的な推論と質問応答能力によって自然言語処理の分野に革命をもたらした。
LLMは時に、幻覚として知られる、信頼できるが誤った情報を生成する傾向にある。
本稿では,決定論の原理に基づく不確実性を考慮した因果的言語モデリング損失関数を提案する。
論文 参考訳(メタデータ) (2024-12-03T23:14:47Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。