論文の概要: Automatic Layer Selection for Hallucination Detection
- arxiv url: http://arxiv.org/abs/2605.26366v2
- Date: Wed, 27 May 2026 23:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.730248
- Title: Automatic Layer Selection for Hallucination Detection
- Title(参考訳): 幻覚検出のための自動層選択
- Authors: Xinpeng Wang, William Cao, Andrew Gordon Wilson, Zhe Zeng,
- Abstract要約: 幻覚関連信号は、大言語モデルの最終層(LLM)よりも中間層に強く符号化されている
提案する選択基準は, 最適層, 準最適層を連続的に同定するFEPoID (First Effective Peak of Intrinsic Dimension) である。
FEPoIDはトレーニング不要で、計算オーバーヘッドは無視できる。
- 参考スコア(独自算出の注目度): 41.55956839406409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies on hallucination detection have shown that hallucination-related signals are more strongly encoded in intermediate layers than in the final layer of large language models (LLMs). Although a growing body of work has sought to exploit this property for hallucination detection, how to automate the selection of high-performing layers remains underexplored, and principled methods for this purpose are still lacking. To address this gap, we first propose several hypotheses for why such signals emerge in intermediate layers and evaluate corresponding criteria for automatic layer selection across diverse LLM architectures, scales, and tasks, covering both question answering and summarization hallucination detection benchmarks. However, we find that none of these criteria consistently delivers satisfactory performance. We therefore propose a new selection criterion, First Effective Peak of Intrinsic Dimension (FEPoID), which consistently identify optimal or near-optimal layers and outperforms both the aforementioned criteria and existing hallucination detection baselines. FEPoID is training-free and incurs negligible computational overhead. In addition, we study the generation behaviors of LLMs and introduce a simple yet effective truncation strategy, which further amplifies hallucination-related signals and substantially improves overall detection performance. Code is publicly available at https://github.com/DesoloYw/Automatic-Layer-Selection-for-Hallucination-Detection.git
- Abstract(参考訳): 幻覚検出の最近の研究により、幻覚関連信号は大規模言語モデル(LLM)の最終層よりも中間層に強くエンコードされていることが示されている。
この特性を幻覚検出に利用しようとする研究が増えているが、ハイパフォーマンス層の選択の自動化方法はまだ未検討であり、この目的のための原則的手法はいまだに欠落している。
このギャップに対処するために、まず、中間層にそのような信号が現れる理由の仮説をいくつか提案し、様々なLCMアーキテクチャ、スケール、タスクにまたがる自動層選択の基準を評価し、質問応答と要約幻覚検出ベンチマークの両方をカバーする。
しかしながら、これらの基準のどれも一貫して満足なパフォーマンスを提供していないことが分かりました。
そこで本稿では, 最適層, 準最適層を一貫して同定し, 上記の基準と既存の幻覚検出基準の両方を上回り, 新たな選択基準であるFEPoID(First Effective Peak of Intrinsic Dimension)を提案する。
FEPoIDはトレーニング不要で、計算オーバーヘッドは無視できる。
さらに, LLMの生成挙動について検討し, 幻覚関連信号をさらに増幅し, 全体的な検出性能を大幅に向上させる, 簡便で効果的なトランケーション戦略を提案する。
コードはhttps://github.com/DesoloYw/Automatic-Layer-Selection-for-Hallucination-Detection.gitで公開されている。
関連論文リスト
- Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation [68.41785694664011]
機能ステアリングのためのLate-Then-Sparsify(LTS-FS)と呼ばれるプラグアンドプレイフレームワークを提案する。
各層の幻覚関係に応じて操舵強度を制御する。
我々の枠組みは、強い性能を維持しながら幻覚を効果的に緩和する。
論文 参考訳(メタデータ) (2026-03-17T09:16:50Z) - Cross-Layer Attention Probing for Fine-Grained Hallucination Detection [6.83291363146574]
幻覚検出のための新しいアクティベーション・プロブリング技術であるCLAP(Cross-Layer Attention Probing)を提案する。
実験により,CLAPは脱コード応答と高温度でサンプリングされた応答の両方のベースラインと比較して幻覚検出を改善することが示された。
CLAPは、アウト・オブ・ディストリビューションを適用しても高い信頼性を維持する。
論文 参考訳(メタデータ) (2025-09-04T14:37:34Z) - Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - HalluCounter: Reference-free LLM Hallucination Detection in the Wild! [6.5037356041929675]
HalluCounterは、応答応答とクエリ応答の整合性とアライメントパターンの両方を利用する参照なし幻覚検出手法である。
我々の手法は最先端の手法よりもかなり優れており、データセット間での幻覚検出における平均信頼度は90%を超えている。
論文 参考訳(メタデータ) (2025-03-06T16:59:18Z) - CHAIR -- Classifier of Hallucination as Improver [1.397828249435483]
トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
論文 参考訳(メタデータ) (2025-01-05T12:15:02Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。