論文の概要: INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection
- arxiv url: http://arxiv.org/abs/2402.03744v2
- Date: Mon, 21 Oct 2024 04:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:50.223065
- Title: INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection
- Title(参考訳): INSIDE: LLMの内部状態は幻覚検出の力を維持している
- Authors: Chao Chen, Kai Liu, Ze Chen, Yi Gu, Yue Wu, Mingyuan Tao, Zhihang Fu, Jieping Ye,
- Abstract要約: 本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。
応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。
内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
- 参考スコア(独自算出の注目度): 39.52923659121416
- License:
- Abstract: Knowledge hallucination have raised widespread concerns for the security and reliability of deployed LLMs. Previous efforts in detecting hallucinations have been employed at logit-level uncertainty estimation or language-level self-consistency evaluation, where the semantic information is inevitably lost during the token-decoding procedure. Thus, we propose to explore the dense semantic information retained within LLMs' \textbf{IN}ternal \textbf{S}tates for halluc\textbf{I}nation \textbf{DE}tection (\textbf{INSIDE}). In particular, a simple yet effective \textbf{EigenScore} metric is proposed to better evaluate responses' self-consistency, which exploits the eigenvalues of responses' covariance matrix to measure the semantic consistency/diversity in the dense embedding space. Furthermore, from the perspective of self-consistent hallucination detection, a test time feature clipping approach is explored to truncate extreme activations in the internal states, which reduces overconfident generations and potentially benefits the detection of overconfident hallucinations. Extensive experiments and ablation studies are performed on several popular LLMs and question-answering (QA) benchmarks, showing the effectiveness of our proposal.
- Abstract(参考訳): 知識幻覚は、展開されたLLMのセキュリティと信頼性に対する幅広い懸念を引き起こしている。
従来,ロジトレベルの不確実性評価や言語レベルの自己整合性評価では,トークン復号処理中に意味情報が必然的に失われていた。
そこで本研究では,LLMs の \textbf{IN}ternal \textbf{S}tates 内に保持される密接な意味情報を Halluc\textbf{I}nation \textbf{DE}tection (\textbf{INSIDE}) に対して探索する。
特に、応答の自己整合性をよりよく評価するために、単純で効果的な \textbf{EigenScore} 計量が提案され、これは応答の共分散行列の固有値を利用して密埋め込み空間における意味的一貫性/多様性を測定する。
さらに、自己整合性幻覚検出の観点から、内部状態における極端な活性化を阻害するテスト時間特徴クリッピング手法が検討され、過信世代を減らし、過信性幻覚の検出に有効である可能性が示唆された。
いくつかのLLMとQA(Qanguage-Awering)ベンチマークで大規模な実験とアブレーション実験を行い,提案手法の有効性を示した。
関連論文リスト
- REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models [15.380441563675243]
大規模言語モデル(LLM)における幻覚は、質問応答のような知識集約的なタスクにおいて、その信頼性を著しく制限する。
本稿では, 抽出した文書を直接利用して, LLM出力内のハロゲン化スパンを検出する新しいフレームワークREFINDを紹介する。
REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
論文 参考訳(メタデータ) (2025-02-19T10:59:05Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - VL-Uncertainty: Detecting Hallucination in Large Vision-Language Model via Uncertainty Estimation [18.873512856021357]
本稿では,大規模な視覚言語モデルにおける幻覚を検出するための,最初の不確実性に基づくフレームワークであるVL-Uncertaintyを紹介する。
意味論的に等価だが摂動的プロンプト間の予測分散を分析して不確実性を測定する。
LVLMは信頼性が高く、意味論的に等価なクエリに対して一貫した応答を提供する。
しかし、不確実な場合には、目標LVLMの応答はよりランダムになる。
論文 参考訳(メタデータ) (2024-11-18T04:06:04Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。