論文の概要: Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Unanswerable Questions and Ambiguous Prompts
- arxiv url: http://arxiv.org/abs/2412.10246v1
- Date: Fri, 13 Dec 2024 16:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:08.920726
- Title: Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Unanswerable Questions and Ambiguous Prompts
- Title(参考訳): レイヤワイズ情報不足によるLCM幻覚の検出:未解決の質問と曖昧なプロンプトの分析
- Authors: Hazel Kim, Adel Bibi, Philip Torr, Yarin Gal,
- Abstract要約: 大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。
本稿では,情報フローの系統的解析によるモデル幻覚の検出手法を提案する。
- 参考スコア(独自算出の注目度): 45.012351176157765
- License:
- Abstract: Large language models (LLMs) frequently generate confident yet inaccurate responses, introducing significant risks for deployment in safety-critical domains. We present a novel approach to detecting model hallucination through systematic analysis of information flow across model layers when processing inputs with insufficient or ambiguous context. Our investigation reveals that hallucination manifests as usable information deficiencies in inter-layer transmissions. While existing approaches primarily focus on final-layer output analysis, we demonstrate that tracking cross-layer information dynamics ($\mathcal{L}$I) provides robust indicators of model reliability, accounting for both information gain and loss during computation. $\mathcal{L}$I improves model reliability by immediately integrating with universal LLMs without additional training or architectural modifications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成し、安全クリティカルなドメインへのデプロイに重大なリスクをもたらす。
本稿では,入力を不十分あるいはあいまいな文脈で処理する場合に,モデル層間の情報フローを体系的に解析することで,モデル幻覚を検出する手法を提案する。
本研究により,幻覚は層間伝達において有用な情報不足であることが明らかとなった。
既存手法は主に最終層出力解析に焦点が当てられているが, クロスレイヤ情報ダイナミクス($I)は, 計算中の情報ゲインと損失の両方を考慮し, モデル信頼性の頑健な指標を提供することを示した。
$\mathcal{L}$I は、追加のトレーニングやアーキテクチャの変更なしに、ユニバーサル LLM と即時に統合することで、モデルの信頼性を向上させる。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。