論文の概要: Cross-Layer Attention Probing for Fine-Grained Hallucination Detection
- arxiv url: http://arxiv.org/abs/2509.09700v1
- Date: Thu, 04 Sep 2025 14:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.728385
- Title: Cross-Layer Attention Probing for Fine-Grained Hallucination Detection
- Title(参考訳): 微粒化幻覚検出のためのクロスレイアテンションプローブ
- Authors: Malavika Suresh, Rahaf Aljundi, Ikechukwu Nkisi-Orji, Nirmalie Wiratunga,
- Abstract要約: 幻覚検出のための新しいアクティベーション・プロブリング技術であるCLAP(Cross-Layer Attention Probing)を提案する。
実験により,CLAPは脱コード応答と高温度でサンプリングされた応答の両方のベースラインと比較して幻覚検出を改善することが示された。
CLAPは、アウト・オブ・ディストリビューションを適用しても高い信頼性を維持する。
- 参考スコア(独自算出の注目度): 6.83291363146574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the large-scale adoption of Large Language Models (LLMs) in various applications, there is a growing reliability concern due to their tendency to generate inaccurate text, i.e. hallucinations. In this work, we propose Cross-Layer Attention Probing (CLAP), a novel activation probing technique for hallucination detection, which processes the LLM activations across the entire residual stream as a joint sequence. Our empirical evaluations using five LLMs and three tasks show that CLAP improves hallucination detection compared to baselines on both greedy decoded responses as well as responses sampled at higher temperatures, thus enabling fine-grained detection, i.e. the ability to disambiguate hallucinations and non-hallucinations among different sampled responses to a given prompt. This allows us to propose a detect-then-mitigate strategy using CLAP to reduce hallucinations and improve LLM reliability compared to direct mitigation approaches. Finally, we show that CLAP maintains high reliability even when applied out-of-distribution.
- Abstract(参考訳): 様々なアプリケーションで大規模言語モデル(LLM)が大規模に採用されているため、不正確なテキストを生成する傾向、すなわち幻覚を生成する傾向があるため、信頼性の懸念が高まっている。
本研究では,幻覚検出のための新しい活性化探索手法であるCLAP(Cross-Layer Attention Probing)を提案する。
5つのLCMと3つのタスクを用いた経験的評価では、CLAPは、強欲なデコードされた応答と高温でサンプリングされた応答の両方のベースラインと比較して幻覚の検出を改善することが示され、それによって、与えられたプロンプトに対する異なるサンプル応答間の幻覚や非幻覚を曖昧にすることができる。
これにより, 直接緩和法に比べて幻覚の低減とLCM信頼性の向上を図るため, CLAPを用いた検出終了戦略を提案することができる。
最後に, CLAPは, アウト・オブ・ディストリビューションを適用しても高い信頼性を維持していることを示す。
関連論文リスト
- MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation [9.540386616651295]
CoT(Chain-of-Thought)は、ステップバイステップ推論を奨励することによって幻覚を緩和する。
我々の研究は、推論の利用における見落とされがちなトレードオフを浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-20T15:49:37Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models [41.979015935353814]
大規模言語モデル(LLM)におけるゼロショット幻覚検出のためのAGSER(Attention-Guided SElf-Reflection)アプローチを提案する。
AGSER法は注意力を利用して、入力クエリを注意クエリと非注意クエリに分類する。
幻覚を検出する効果に加えて、AGSERは計算オーバーヘッドを著しく減らし、LSMを通過する3つのトークンと2つのトークンを使用する必要がある。
論文 参考訳(メタデータ) (2025-01-17T07:30:01Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。