論文の概要: HIDE and Seek: Detecting Hallucinations in Language Models via Decoupled Representations
- arxiv url: http://arxiv.org/abs/2506.17748v1
- Date: Sat, 21 Jun 2025 16:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.566134
- Title: HIDE and Seek: Detecting Hallucinations in Language Models via Decoupled Representations
- Title(参考訳): HIDEとSeek:デカップリング表現による言語モデルにおける幻覚の検出
- Authors: Anwoy Chatterjee, Yash Goel, Tanmoy Chakraborty,
- Abstract要約: 現代言語モデル(LM)は、しばしば、入力コンテキストに事実的に不正確または不誠実なコンテンツを生成する。
Decoupled rEpresentations (HIDE) による効果的な幻覚検出のためのシングルパストレーニングフリーアプローチを提案する。
その結果、HIDEは、ほぼすべての設定において、他のシングルパスメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 17.673293240849787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary Language Models (LMs), while impressively fluent, often generate content that is factually incorrect or unfaithful to the input context - a critical issue commonly referred to as 'hallucination'. This tendency of LMs to generate hallucinated content undermines their reliability, especially because these fabrications are often highly convincing and therefore difficult to detect. While several existing methods attempt to detect hallucinations, most rely on analyzing multiple generations per input, leading to increased computational cost and latency. To address this, we propose a single-pass, training-free approach for effective Hallucination detectIon via Decoupled rEpresentations (HIDE). Our approach leverages the hypothesis that hallucinations result from a statistical decoupling between an LM's internal representations of input context and its generated output. We quantify this decoupling using the Hilbert-Schmidt Independence Criterion (HSIC) applied to hidden-state representations extracted while generating the output sequence. We conduct extensive experiments on four diverse question answering datasets, evaluating both faithfulness and factuality hallucinations across six open-source LMs of varying scales and properties. Our results demonstrate that HIDE outperforms other single-pass methods in almost all settings, achieving an average relative improvement of ~29% in AUC-ROC over the best-performing single-pass strategy across various models and datasets. Additionally, HIDE shows competitive and often superior performance with multi-pass state-of-the-art methods, obtaining an average relative improvement of ~3% in AUC-ROC while consuming ~51% less computation time. Our findings highlight the effectiveness of exploiting internal representation decoupling in LMs for efficient and practical hallucination detection.
- Abstract(参考訳): 現代言語モデル(LM)は、目覚ましいほど流動的だが、しばしば、入力コンテキストに事実的に不正確で不誠実なコンテンツを生成する。
幻覚性コンテンツを生成するこの傾向は、特にこれらの製造が高い説得力を持ち、検出が難しいため、その信頼性を損なう。
いくつかの既存手法は幻覚を検知しようとするが、ほとんどの手法は入力毎に複数の世代を解析することに依存しており、計算コストと遅延が増大する。
そこで本研究では,Decoupled rEpresentations (HIDE) を用いた効果的な幻覚検出のための単一パス学習自由アプローチを提案する。
提案手法は,入力コンテキストの内部表現と生成した出力との統計的疎結合から幻覚が生じるという仮説を利用する。
本稿では,Hilbert-Schmidt Independence Criterion (HSIC) を用いて,出力シーケンスを生成して抽出した隠れ状態表現を定量化する。
我々は4つの多様な質問応答データセットについて広範な実験を行い、様々なスケールと特性の6つのオープンソースLMに対して忠実性と事実性幻覚の両方を評価した。
以上の結果から,HIDEはAUC-ROCにおいて,各種モデルやデータセットのシングルパス戦略よりも平均29%向上した。
さらに、HIDEはマルチパス・オブ・ザ・アーティカルな手法と競争力があり、AUC-ROCの相対的な改善は平均3%程度であり、計算時間も約51%削減されている。
本研究は,LMの内部表現疎結合を効果的かつ実用的な幻覚検出に有効であることを示す。
関連論文リスト
- Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation [78.78421340836915]
オープンドメイン長文応答における参照なし幻覚検出を系統的に検討する。
その結果,内的状態は事実と幻覚的内容とを確実に区別するには不十分であることが判明した。
RATE-FTと呼ばれる新しいパラダイムを導入し、モデルが幻覚検出のメインタスクと共同で学習するための補助的なタスクで微調整を強化する。
論文 参考訳(メタデータ) (2025-05-18T07:10:03Z) - Robust Hallucination Detection in LLMs via Adaptive Token Selection [25.21763722332831]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。
本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。
本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文 参考訳(メタデータ) (2025-04-10T15:39:10Z) - Uncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models [2.98260857963929]
大規模言語モデル(LLM)は、ユーザの信頼を損なう可能性のある非実効的なアウトプットを幻覚し、生成することが知られている。
表現編集やコントラスト復号といった幻覚を直接緩和する従来の手法は、しばしば追加のトレーニングデータを必要とし、実装の複雑さを伴います。
本研究では,その精度と自己評価能力に基づいて,複数のLSMを戦略的に組み合わせて幻覚を低減するためのアンサンブルフレームワークであるUncertainty-Aware Fusion (UAF)を提案する。
論文 参考訳(メタデータ) (2025-02-22T10:48:18Z) - Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models [20.175106988135454]
大規模言語モデル(LLM)におけるゼロショット幻覚検出のためのAGSER(Attention-Guided SElf-Reflection)アプローチを提案する。
AGSER法は注意力を利用して、入力クエリを注意クエリと非注意クエリに分類する。
幻覚を検出する効果に加えて、AGSERは計算オーバーヘッドを著しく減らし、LSMを通過する3つのトークンと2つのトークンを使用する必要がある。
論文 参考訳(メタデータ) (2025-01-17T07:30:01Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。