論文の概要: HalluSAE: Detecting Hallucinations in Large Language Models via Sparse Auto-Encoders
- arxiv url: http://arxiv.org/abs/2604.16430v1
- Date: Mon, 06 Apr 2026 11:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.991809
- Title: HalluSAE: Detecting Hallucinations in Large Language Models via Sparse Auto-Encoders
- Title(参考訳): HalluSAE: スパースオートエンコーダによる大規模言語モデルの幻覚検出
- Authors: Boshui Chen, Zhaoxin Fan, Ke Wang, Zhiying Leng, Faguo Wu, Hongwei Zheng, Yifan Sun, Wenjun Wu,
- Abstract要約: HalluSAEは相転移にインスパイアされたフレームワークで、幻覚をモデルの潜在力学の重要なシフトとしてモデル化する。
提案手法は,(1)スパースオートエンコーダとポテンシャル幾何エネルギーメトリックによる電位エネルギー利用位相帯の局在化,(2)対向ロジット属性を用いた幻覚関連スパース特徴属性,(3)乱れのある特徴に対する線形プローブによる因果ハロシン化検出の3段階からなる。
- 参考スコア(独自算出の注目度): 18.930506997742196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are powerful and widely adopted, but their practical impact is limited by the well-known hallucination phenomenon. While recent hallucination detection methods have made notable progress, we find most of them overlook the dynamic nature and underlying mechanisms of it. To address this gap, we propose HalluSAE, a phase transition-inspired framework that models hallucination as a critical shift in the model's latent dynamics. By modeling the generation process as a trajectory through a potential energy landscape, HalluSAE identifies critical transition zones and attributes factual errors to specific high-energy sparse features. Our approach consists of three stages: (1) Potential Energy Empowered Phase Zone Localization via sparse autoencoders and a geometric potential energy metric; (2) Hallucination-related Sparse Feature Attribution using contrastive logit attribution; and (3) Probing-based Causal Hallucination Detection through linear probes on disentangled features. Extensive experiments on Gemma-2-9B demonstrate that HalluSAE achieves state-of-the-art hallucination detection performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力で広く採用されているが、その実践的影響は有名な幻覚現象によって制限されている。
近年の幻覚検出法は顕著な進歩を遂げているが,そのほとんどは,そのダイナミックな性質やメカニズムを見落としている。
このギャップに対処するために,ハルーザイは,幻覚をモデルの潜伏するダイナミクスの重要なシフトとしてモデル化する,相転移にインスパイアされたフレームワークである。
生成過程を潜在的なエネルギー景観を通して軌道としてモデル化することにより、ハルーサエは臨界遷移ゾーンを特定し、特定の高エネルギースパース特性に事実誤差を割り当てる。
提案手法は,(1)スパースオートエンコーダと幾何ポテンシャルエネルギーメトリックによる電位エネルギー利用位相帯の局在化,(2)対向ロジット属性を用いた幻覚関連スパース特徴属性,(3)乱れのある特徴に対する線形プローブによる因果ハロシン化検出の3段階からなる。
Gemma-2-9Bの大規模な実験により、HaluSAEは最先端の幻覚検出性能を達成することが示された。
関連論文リスト
- Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction [49.96701537295129]
LVLM(Large Vision-Language Models)は、モーダルなタスク間で大きな成功を収めてきたが、幻覚によって妨げられている。
既存の方法は幻覚を緩和するが、しばしば生成行動を変化させ、結果として出力が短くなり、トークンの分布がシフトする。
幻覚緩和のための制御および選択的な潜伏介入を行う効果的なプラグアンドプレイフレームワークであるMESAを提案する。
論文 参考訳(メタデータ) (2026-04-09T07:31:27Z) - HII-DPO: Eliminate Hallucination via Accurate Hallucination-Inducing Counterfactual Images [9.716231984097313]
VLM(Large Vision-Language Models)は様々なマルチモーダルタスクにおいて顕著な成功を収めているが、固有の言語バイアスに根ざした幻覚に弱いままである。
本研究では,ハロシン化誘導画像(HII)を正確に合成する新しいパイプラインを設計する。
合成HIIを用いて一貫したシーン条件の幻覚パターンを明らかにする。
提案手法は, 標準的な幻覚ベンチマークにおいて, 最先端の38%の改善を実現している。
論文 参考訳(メタデータ) (2026-02-11T02:11:02Z) - Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction [59.801614364841775]
LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
論文 参考訳(メタデータ) (2025-12-21T17:05:42Z) - Two Causes, Not One: Rethinking Omission and Fabrication Hallucinations in MLLMs [31.601057368065877]
既存の手法は、省略と製造幻覚が共通の原因を共有するという欠点のある仮定に基づいており、しばしば省略を減らし、より多くの製造を誘発する。
本研究は,視覚的特徴を言語表現にマッピングする場合に,排他的幻覚が不十分な自信から生じることを示すことによって,この見解を覆すものである。
本研究では,物体の存在や不在を視覚的証拠がどのように推測するかを明らかにする概念的枠組みである視覚意味的注意力場を提案する。
論文 参考訳(メタデータ) (2025-08-30T05:47:41Z) - RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [26.186204911845866]
幻覚は大きな言語モデルにとって 重要な障害です
これら2つの側面により不確実性の測定を補正するRePPLを提案する。
提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:23:05Z) - Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering [83.63437999696954]
大規模言語モデル(MLLM)における幻覚は、ビデオ領域において重要かつ未適応な課題として持続する。
本稿では,幻覚に敏感なモジュールを適応的に識別し,操作するビデオLLMのための時間認識型アクティベーションエンジニアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:12:06Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。