Fugu-MT 論文翻訳(概要): INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection

論文の概要: INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection

arxiv url: http://arxiv.org/abs/2402.03744v2
Date: Mon, 21 Oct 2024 04:10:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.616106
Title: INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection
Title（参考訳）: INSIDE: LLMの内部状態は幻覚検出の力を維持している
Authors: Chao Chen, Kai Liu, Ze Chen, Yi Gu, Yue Wu, Mingyuan Tao, Zhihang Fu, Jieping Ye,
Abstract要約: 本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
参考スコア（独自算出の注目度）: 39.52923659121416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge hallucination have raised widespread concerns for the security and reliability of deployed LLMs. Previous efforts in detecting hallucinations have been employed at logit-level uncertainty estimation or language-level self-consistency evaluation, where the semantic information is inevitably lost during the token-decoding procedure. Thus, we propose to explore the dense semantic information retained within LLMs' \textbf{IN}ternal \textbf{S}tates for halluc\textbf{I}nation \textbf{DE}tection (\textbf{INSIDE}). In particular, a simple yet effective \textbf{EigenScore} metric is proposed to better evaluate responses' self-consistency, which exploits the eigenvalues of responses' covariance matrix to measure the semantic consistency/diversity in the dense embedding space. Furthermore, from the perspective of self-consistent hallucination detection, a test time feature clipping approach is explored to truncate extreme activations in the internal states, which reduces overconfident generations and potentially benefits the detection of overconfident hallucinations. Extensive experiments and ablation studies are performed on several popular LLMs and question-answering (QA) benchmarks, showing the effectiveness of our proposal.
Abstract（参考訳）: 知識幻覚は、展開されたLLMのセキュリティと信頼性に対する幅広い懸念を引き起こしている。従来,ロジトレベルの不確実性評価や言語レベルの自己整合性評価では,トークン復号処理中に意味情報が必然的に失われていた。そこで本研究では,LLMs の \textbf{IN}ternal \textbf{S}tates 内に保持される密接な意味情報を Halluc\textbf{I}nation \textbf{DE}tection (\textbf{INSIDE}) に対して探索する。特に、応答の自己整合性をよりよく評価するために、単純で効果的な \textbf{EigenScore} 計量が提案され、これは応答の共分散行列の固有値を利用して密埋め込み空間における意味的一貫性/多様性を測定する。さらに、自己整合性幻覚検出の観点から、内部状態における極端な活性化を阻害するテスト時間特徴クリッピング手法が検討され、過信世代を減らし、過信性幻覚の検出に有効である可能性が示唆された。いくつかのLLMとQA(Qanguage-Awering)ベンチマークで大規模な実験とアブレーション実験を行い,提案手法の有効性を示した。

関連論文リスト

MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。 MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文参考訳（メタデータ） (2025-07-28T17:38:29Z)
ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文参考訳（メタデータ） (2025-07-22T11:44:26Z)
HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-24T13:40:27Z)
Robust Hallucination Detection in LLMs via Adaptive Token Selection [25.21763722332831]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文参考訳（メタデータ） (2025-04-10T15:39:10Z)
Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs [14.683552774931751]
大規模言語モデル (LLM) は、膨大な事実知識を符号化することで、様々なタスクにまたがる顕著な性能を示した。彼らはまだ幻覚を起こす傾向があり、誤った情報や誤解を招く情報を生み出し、しばしば高い不確実性を伴う。 LLMにおける外部不確実性と内部不確実性の両方を定量化する新しい尺度であるSemantic Volumeを紹介する。
論文参考訳（メタデータ） (2025-02-28T17:09:08Z)
REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models [15.380441563675243]
REFIND(Retrieval-augmented Factuality Hallucination Detection)は、大規模言語モデル(LLM)出力内の幻覚スパンを検出する新しいフレームワークである。本研究では,LLM出力の感度を定量的に評価する新しい指標であるコンテキスト感度比(CSR)を提案する。 REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
論文参考訳（メタデータ） (2025-02-19T10:59:05Z)
HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文参考訳（メタデータ） (2025-02-12T04:17:02Z)
VL-Uncertainty: Detecting Hallucination in Large Vision-Language Model via Uncertainty Estimation [18.873512856021357]
本稿では,大規模な視覚言語モデルにおける幻覚を検出するための,最初の不確実性に基づくフレームワークであるVL-Uncertaintyを紹介する。意味論的に等価だが摂動的プロンプト間の予測分散を分析して不確実性を測定する。 LVLMは信頼性が高く、意味論的に等価なクエリに対して一貫した応答を提供する。しかし、不確実な場合には、目標LVLMの応答はよりランダムになる。
論文参考訳（メタデータ） (2024-11-18T04:06:04Z)
SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection [10.54378596443678]
大規模言語モデル(LLM)は高い能力を持つが、リアルタイムアプリケーションではレイテンシの問題に直面している。本研究では,実効的なプロンプト技術の導入により,実時間で解釈可能な幻覚検出を最適化する。
論文参考訳（メタデータ） (2024-08-22T22:13:13Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文参考訳（メタデータ） (2024-02-25T22:23:37Z)
Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-02-16T11:55:40Z)
Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。 6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文参考訳（メタデータ） (2024-01-19T15:39:49Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。