論文の概要: D$^2$HScore: Reasoning-Aware Hallucination Detection via Semantic Breadth and Depth Analysis in LLMs
- arxiv url: http://arxiv.org/abs/2509.11569v1
- Date: Mon, 15 Sep 2025 04:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.144879
- Title: D$^2$HScore: Reasoning-Aware Hallucination Detection via Semantic Breadth and Depth Analysis in LLMs
- Title(参考訳): D$^2$HScore:LLMのセマンティックブレッドスと深さ解析による推論型幻覚検出
- Authors: Yue Ding, Xiaofang Zhu, Tianze Xia, Junfei Wu, Xinlong Chen, Qiang Liu, Liang Wang,
- Abstract要約: この研究は、モデルアーキテクチャと生成ダイナミクスの観点から幻覚検出を再考する。
textbfD$2$HScore (Dispersion and Drift-based Hallucination Score) を提案する。
5つのオープンソースのLanguage Modelと5つの広く使用されているベンチマークの実験は、D$2$HScoreが既存のトレーニング不要のベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 15.665202830841046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large Language Models (LLMs) have achieved remarkable success, their practical application is often hindered by the generation of non-factual content, which is called "hallucination". Ensuring the reliability of LLMs' outputs is a critical challenge, particularly in high-stakes domains such as finance, security, and healthcare. In this work, we revisit hallucination detection from the perspective of model architecture and generation dynamics. Leveraging the multi-layer structure and autoregressive decoding process of LLMs, we decompose hallucination signals into two complementary dimensions: the semantic breadth of token representations within each layer, and the semantic depth of core concepts as they evolve across layers. Based on this insight, we propose \textbf{D$^2$HScore (Dispersion and Drift-based Hallucination Score)}, a training-free and label-free framework that jointly measures: (1) \textbf{Intra-Layer Dispersion}, which quantifies the semantic diversity of token representations within each layer; and (2) \textbf{Inter-Layer Drift}, which tracks the progressive transformation of key token representations across layers. To ensure drift reflects the evolution of meaningful semantics rather than noisy or redundant tokens, we guide token selection using attention signals. By capturing both the horizontal and vertical dynamics of representation during inference, D$^2$HScore provides an interpretable and lightweight proxy for hallucination detection. Extensive experiments across five open-source LLMs and five widely used benchmarks demonstrate that D$^2$HScore consistently outperforms existing training-free baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい成功を収めているが、その実践的応用は「幻覚(hallucination)」と呼ばれる非現実的コンテンツの生成によって妨げられることが多い。
LLMのアウトプットの信頼性を確保することは、特に金融、セキュリティ、医療といった高度な領域において重要な課題である。
本研究では,モデルアーキテクチャと生成ダイナミクスの観点から幻覚検出を再考する。
LLMの多層構造と自己回帰復号プロセスを利用して、幻覚信号を2つの相補的な次元に分解する。
この知見に基づいて,(1)各層におけるトークン表現の意味的多様性を定量化する,(2)各層間のキートークン表現のプログレッシブな変換を追跡する,トレーニングフリーかつラベルフリーなフレームワークである。
ドリフトがノイズや冗長なトークンではなく意味的意味論の進化を反映することを保証するため、注意信号を用いたトークン選択をガイドする。
D$^2$HScoreは、推論中に水平と垂直の両方の表現をキャプチャすることで、幻覚検出のための解釈可能で軽量なプロキシを提供する。
5つのオープンソースLLMと5つの広く使用されているベンチマークによる大規模な実験は、D$^2$HScoreが既存のトレーニング不要のベースラインを一貫して上回っていることを示している。
関連論文リスト
- Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction [59.801614364841775]
LVLM(Large Vision-Language Models)は目覚ましい能力を示しているが、幻覚は依然として持続的な課題である。
本研究は,LVLMにおける視覚知覚とトークン生成の内部進化の系統的解析である。
我々は,VDC(d Dominance Correction)戦略を考案し,不要なトークンを検出し,検証済みトークンに置き換えて出力信頼性を向上させる。
論文 参考訳(メタデータ) (2025-12-21T17:05:42Z) - HalluShift++: Bridging Language and Vision through Internal Representation Shifts for Hierarchical Hallucinations in MLLMs [17.130698952440316]
大規模言語モデル(MLLM)における幻覚は、モデル開発プロセスにおいてますます重要になっている。
本稿では,幻覚がMLLMの内部層力学における測定可能な不規則性として現れるという仮説を提案する。
このような修正を導入することで、textsctextscHalluShift++は、テキストベースの大規模言語モデルからの幻覚検出の有効性を広げる。
論文 参考訳(メタデータ) (2025-12-08T16:24:46Z) - Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval [15.126709823382539]
本研究は、人物表現学習のためのコントラスト言語画像事前学習(CLIP)を推進している。
MLLMのコンテキスト内学習機能を活用した耐雑音性データ構築パイプラインを開発した。
我々はGA-DMSフレームワークを導入し、ノイズの多いテキストトークンを適応的にマスキングすることで、クロスモーダルアライメントを改善する。
論文 参考訳(メタデータ) (2025-09-11T03:06:22Z) - Beyond ROUGE: N-Gram Subspace Features for LLM Hallucination Detection [5.0106565473767075]
大規模言語モデル(LLM)は、自然言語を含む様々なタスクにおいて有効性を示す。
幻覚の根本的な問題は依然としてこれらのモデルに悩まされており、一貫性のある真正な情報を生成する際の信頼性を制限している。
LLM生成テキストからN-Gram周波数テンソルを構成するROUGEにインスパイアされた新しい手法を提案する。
このテンソルは共起パターンを符号化することでよりリッチな意味構造を捉え、事実と幻覚的コンテンツをよりよく区別することができる。
論文 参考訳(メタデータ) (2025-09-03T18:52:24Z) - How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding [39.342366994703376]
MLLMが階層間の視覚的およびテキスト的入力をどのように処理するかを分析するための探索フレームワークを導入する。
ステージ単位の構造は、視覚的トークン化、命令チューニングデータ、事前学習コーパスの様々なバリエーションで安定しているが、各ステージシフトごとに特定の層が割り当てられることが示される。
論文 参考訳(メタデータ) (2025-08-27T21:22:01Z) - LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models [8.122679857175315]
MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて優れているが、オブジェクト幻覚の傾向が強い。
階層的変調と多層融合による生成一貫性を向上させるtextbfLISA を提案する。
実験によると、LISAは$mathrmCHAIR_I$で最大53.6%の幻覚を減少させ、POPE F1を4.5%改善する。
論文 参考訳(メタデータ) (2025-07-25T09:48:23Z) - Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views [66.1245505423179]
レンダリングされたセマンティクスは、レンダリングされたRGBよりも堅牢な拡張データとして扱うことができることを示す。
提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
論文 参考訳(メタデータ) (2025-03-04T03:13:44Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。
半教師付きFERのための表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusing (LEAF)を提案する。
論文 参考訳(メタデータ) (2024-04-23T13:43:33Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。