論文の概要: Revisiting Hallucination Detection with Effective Rank-based Uncertainty
- arxiv url: http://arxiv.org/abs/2510.08389v1
- Date: Thu, 09 Oct 2025 16:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.186792
- Title: Revisiting Hallucination Detection with Effective Rank-based Uncertainty
- Title(参考訳): 効果的なランクベース不確かさによる幻覚検出の再検討
- Authors: Rui Wang, Zeming Wei, Guanzhang Yue, Meng Sun,
- Abstract要約: 隠れ状態の有効ランクを測定することによって不確実性を定量化する,単純かつ強力な手法を提案する。
表現のスペクトル解析に基づいて,本手法はモデルの内部推論過程の解釈可能な洞察を与える。
本手法は,幻覚を効果的に検出し,様々なシナリオで頑健に一般化する。
- 参考スコア(独自算出の注目度): 10.775061161282053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting hallucinations in large language models (LLMs) remains a fundamental challenge for their trustworthy deployment. Going beyond basic uncertainty-driven hallucination detection frameworks, we propose a simple yet powerful method that quantifies uncertainty by measuring the effective rank of hidden states derived from multiple model outputs and different layers. Grounded in the spectral analysis of representations, our approach provides interpretable insights into the model's internal reasoning process through semantic variations, while requiring no extra knowledge or additional modules, thus offering a combination of theoretical elegance and practical efficiency. Meanwhile, we theoretically demonstrate the necessity of quantifying uncertainty both internally (representations of a single response) and externally (different responses), providing a justification for using representations among different layers and responses from LLMs to detect hallucinations. Extensive experiments demonstrate that our method effectively detects hallucinations and generalizes robustly across various scenarios, contributing to a new paradigm of hallucination detection for LLM truthfulness.
- Abstract(参考訳): 大きな言語モデル(LLM)で幻覚を検出することは、信頼できるデプロイメントの根本的な課題である。
基礎的不確実性駆動型幻覚検出フレームワークを超えて,複数のモデル出力と異なる層から得られた隠蔽状態の有効ランクを測定することによって,不確実性を定量化する,シンプルかつ強力な手法を提案する。
提案手法は,表現のスペクトル解析に基づいて,意味的変動を通じてモデルの内部推論過程の解釈可能な洞察を提供するとともに,余分な知識や追加モジュールを必要としないため,理論的エレガンスと実用的効率の組合せを提供する。
一方、理論的には、内部(単一応答の表現)と外部(異なる応答)の両方において不確かさの定量化の必要性を証明し、異なるレイヤ間の表現とLLMからの応答を用いて幻覚を検出するための正当化を提供する。
広汎な実験により,本手法は幻覚を効果的に検出し,様々なシナリオにおいて強固に一般化し,LLMの真正性に対する新たな幻覚検出のパラダイムに寄与することが示された。
関連論文リスト
- Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs [47.18623962083962]
大規模言語モデルにおける幻覚検出のための新しい手法を提案する。
その結果,幻覚応答は接地応答に比べて刺激からの偏差が小さいことがわかった。
本稿では,分布距離を原理的幻覚スコアとして用いたモデル固有検出法を提案する。
論文 参考訳(メタデータ) (2025-06-11T15:59:15Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Robust Hallucination Detection in LLMs via Adaptive Token Selection [25.21763722332831]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。
本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。
本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文 参考訳(メタデータ) (2025-04-10T15:39:10Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。