論文の概要: A Novel Differential Feature Learning for Effective Hallucination Detection and Classification
- arxiv url: http://arxiv.org/abs/2509.21357v1
- Date: Sat, 20 Sep 2025 06:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.863846
- Title: A Novel Differential Feature Learning for Effective Hallucination Detection and Classification
- Title(参考訳): 効果的な幻覚検出・分類のための新しい差分特徴学習法
- Authors: Wenkai Wang, Vincent Lee, Yizhen Zheng,
- Abstract要約: 本稿では,適応的な層間特徴重み付けと差分特徴学習機構に,Projected Fusionブロックを統合したデュアルモデルアーキテクチャを提案する。
幻覚信号が高度にスパースな特徴部分集合に集中していることを示し,質問応答や対話タスクの精度を大幅に向上させることを実証した。
- 参考スコア(独自算出の注目度): 3.9060143123877844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model hallucination represents a critical challenge where outputs deviate from factual accuracy due to distributional biases in training data. While recent investigations establish that specific hidden layers exhibit differences between hallucinatory and factual content, the precise localization of hallucination signals within layers remains unclear, limiting the development of efficient detection methods. We propose a dual-model architecture integrating a Projected Fusion (PF) block for adaptive inter-layer feature weighting and a Differential Feature Learning (DFL) mechanism that identifies discriminative features by computing differences between parallel encoders learning complementary representations from identical inputs. Through systematic experiments across HaluEval's question answering, dialogue, and summarization datasets, we demonstrate that hallucination signals concentrate in highly sparse feature subsets, achieving significant accuracy improvements on question answering and dialogue tasks. Notably, our analysis reveals a hierarchical "funnel pattern" where shallow layers exhibit high feature diversity while deep layers demonstrate concentrated usage, enabling detection performance to be maintained with minimal degradation using only 1\% of feature dimensions. These findings suggest that hallucination signals are more concentrated than previously assumed, offering a pathway toward computationally efficient detection systems that could reduce inference costs while maintaining accuracy.
- Abstract(参考訳): 大規模言語モデル幻覚は、トレーニングデータにおける分布バイアスによって出力が事実精度から逸脱する重要な課題である。
近年の研究では、特定の隠蔽層が幻覚的内容と事実的内容の相違を示すことが確認されているが、層内の幻覚信号の正確な局在は明らかになっていないため、効率的な検出法の開発が制限されている。
適応的な層間特徴重み付けのためのProjected Fusion(PF)ブロックと、同一入力から補完表現を学習する並列エンコーダ間の差分を計算することによって識別特徴を識別する差分特徴学習(DFL)機構を組み合わせた二重モデルアーキテクチャを提案する。
HaluEvalの質問応答、対話、要約データセットの体系的な実験を通して、幻覚信号が高度にスパースな特徴部分集合に集中していることを示し、質問応答と対話タスクの精度を大幅に向上させる。
特に,浅層は高い特徴の多様性を示すが,深層は集中的利用を示すため,特徴次元の1/%しか使用せず,最小限の劣化で検出性能を維持できる階層的な「ファンネルパターン」が明らかになった。
これらの結果から,幻覚信号は従来想定よりも集中しており,精度を保ちながら推論コストを低減できる計算効率の高い検出システムへの道筋が示唆された。
関連論文リスト
- ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Physics-Guided Dual Implicit Neural Representations for Source Separation [70.38762322922211]
我々は,2つの暗黙的ニューラル表現フレームワークを用いて,ソース分離のための自己教師型機械学習手法を開発した。
本手法は,復元に基づく損失関数の最小化により,生データから直接学習する。
本手法は,様々な領域にまたがるソース分離問題に対処する汎用的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-07T17:56:31Z) - Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs [47.18623962083962]
大規模言語モデルにおける幻覚検出のための新しい手法を提案する。
その結果,幻覚応答は接地応答に比べて刺激からの偏差が小さいことがわかった。
本稿では,分布距離を原理的幻覚スコアとして用いたモデル固有検出法を提案する。
論文 参考訳(メタデータ) (2025-06-11T15:59:15Z) - Robust Hallucination Detection in LLMs via Adaptive Token Selection [25.21763722332831]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。
本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。
本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文 参考訳(メタデータ) (2025-04-10T15:39:10Z) - CHAIR -- Classifier of Hallucination as Improver [1.397828249435483]
トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
論文 参考訳(メタデータ) (2025-01-05T12:15:02Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - WDiscOOD: Out-of-Distribution Detection via Whitened Linear Discriminant
Analysis [21.023001428704085]
本稿では,クラス固有情報とクラス非依存情報に基づく新しい特徴空間OOD検出スコアを提案する。
WDiscOODという手法の有効性を,大規模なImageNet-1kベンチマークで検証した。
論文 参考訳(メタデータ) (2023-03-14T00:13:57Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。