論文の概要: HARP: Hallucination Detection via Reasoning Subspace Projection
- arxiv url: http://arxiv.org/abs/2509.11536v1
- Date: Mon, 15 Sep 2025 03:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.132899
- Title: HARP: Hallucination Detection via Reasoning Subspace Projection
- Title(参考訳): HARP:Reasoning Subspace Projectionによる幻覚検出
- Authors: Junjie Hu, Gang Tu, ShengYu Cheng, Jinxin Li, Jinting Wang, Rui Chen, Zhilong Zhou, Dongbo Shan,
- Abstract要約: LLM(Large Language Models)における幻覚は、重要な意思決定における信頼性の高い使用に対して大きな障壁となる。
本稿では,新たな幻覚検出フレームワークであるHARPを提案する。
複数のデータセットにわたる実験により、HARPが最先端の幻覚検出性能を達成することが示された。
- 参考スコア(独自算出の注目度): 10.85580316542761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in Large Language Models (LLMs) pose a major barrier to their reliable use in critical decision-making. Although existing hallucination detection methods have improved accuracy, they still struggle with disentangling semantic and reasoning information and maintaining robustness. To address these challenges, we propose HARP (Hallucination detection via reasoning subspace projection), a novel hallucination detection framework. HARP establishes that the hidden state space of LLMs can be decomposed into a direct sum of a semantic subspace and a reasoning subspace, where the former encodes linguistic expression and the latter captures internal reasoning processes. Moreover, we demonstrate that the Unembedding layer can disentangle these subspaces, and by applying Singular Value Decomposition (SVD) to its parameters, the basis vectors spanning the semantic and reasoning subspaces are obtained. Finally, HARP projects hidden states onto the basis vectors of the reasoning subspace, and the resulting projections are then used as input features for hallucination detection in LLMs. By using these projections, HARP reduces the dimension of the feature to approximately 5% of the original, filters out most noise, and achieves enhanced robustness. Experiments across multiple datasets show that HARP achieves state-of-the-art hallucination detection performance; in particular, it achieves an AUROC of 92.8% on TriviaQA, outperforming the previous best method by 7.5%.
- Abstract(参考訳): LLM(Large Language Models)における幻覚は、重要な意思決定における信頼性の高い使用に対して大きな障壁となる。
既存の幻覚検出法は精度が向上しているが、意味論と推論情報を混同し、堅牢性を維持するのに苦慮している。
これらの課題に対処するために,新たな幻覚検出フレームワークであるHARP(Hallucination Detection via reasoning subspace projection)を提案する。
HARP は LLM の隠れ状態空間を意味的部分空間と推論部分空間の直接の和に分解することができ、前者が言語表現を符号化し、後者が内部の推論過程をキャプチャする。
さらに,Unembedding層がこれらの部分空間を解離し,そのパラメータに特異値分解(SVD)を適用することにより,意味的および推論的部分空間にまたがる基底ベクトルが得られることを示す。
最後に、HARP は推論部分空間の基底ベクトル上に隠れ状態を射影し、その結果の射影は LLM における幻覚検出の入力特徴として使用される。
これらのプロジェクションを使用することで、HARPは特徴の寸法を元の約5%に減らし、ほとんどのノイズを除去し、強化された堅牢性を達成する。
複数のデータセットにわたる実験により、HARPは最先端の幻覚検出性能を達成し、特にTriviaQAでは92.8%のAUROCを達成し、以前のベストメソッドを7.5%上回った。
関連論文リスト
- Beyond ROUGE: N-Gram Subspace Features for LLM Hallucination Detection [5.0106565473767075]
大規模言語モデル(LLM)は、自然言語を含む様々なタスクにおいて有効性を示す。
幻覚の根本的な問題は依然としてこれらのモデルに悩まされており、一貫性のある真正な情報を生成する際の信頼性を制限している。
LLM生成テキストからN-Gram周波数テンソルを構成するROUGEにインスパイアされた新しい手法を提案する。
このテンソルは共起パターンを符号化することでよりリッチな意味構造を捉え、事実と幻覚的コンテンツをよりよく区別することができる。
論文 参考訳(メタデータ) (2025-09-03T18:52:24Z) - What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。
これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。
実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文 参考訳(メタデータ) (2025-08-03T03:11:48Z) - RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [26.186204911845866]
幻覚は大きな言語モデルにとって 重要な障害です
これら2つの側面により不確実性の測定を補正するRePPLを提案する。
提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:23:05Z) - HalluEntity: Benchmarking and Understanding Entity-Level Hallucination Detection [16.27352940098609]
本稿では,エンティティレベルで幻覚を注釈する新たなデータセットであるHaluEntityを提案する。
このデータセットに基づいて、17の近代LCMにおける不確実性に基づく幻覚検出手法を評価する。
実験の結果,個々のトークン確率に着目した不確実性推定手法は幻覚を過度に予測する傾向があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T16:01:41Z) - Hallucination Detection: A Probabilistic Framework Using Embeddings Distance Analysis [2.089191490381739]
本稿では,幻覚を推論するための数学的に健全な方法論を導入し,それを利用して幻覚を検出するツールを構築する。
我々の知る限りでは、幻覚的内容が正しい内容に関して構造的な違いを持つことを示すのが最初である。
これらの構造的差異を利用して幻覚応答を検出するツールを開発し、システムパラメータの特定の構成に対して66%の精度を達成する。
論文 参考訳(メタデータ) (2025-02-10T09:44:13Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。