論文の概要: TraceDet: Hallucination Detection from the Decoding Trace of Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2510.01274v1
- Date: Tue, 30 Sep 2025 02:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.780285
- Title: TraceDet: Hallucination Detection from the Decoding Trace of Diffusion Large Language Models
- Title(参考訳): TraceDet: 拡散大言語モデルのデコードトレースからの幻覚検出
- Authors: Shenxu Chang, Junchi Yu, Weixing Wang, Yongqiang Chen, Jialin Yu, Philip Torr, Jindong Gu,
- Abstract要約: D-LLMの幻覚問題は未解決のままであり、現実世界のアプリケーションでは信頼性が制限されている。
既存の幻覚検出法はAR-LLM向けに設計されており、単一ステップ生成からの信号に依存している。
本稿では,幻覚検出のためのD-LLMの中間段階を明示的に活用する新しいフレームワークであるTraceDetを提案する。
- 参考スコア(独自算出の注目度): 49.83690850047884
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion large language models (D-LLMs) have recently emerged as a promising alternative to auto-regressive LLMs (AR-LLMs). However, the hallucination problem in D-LLMs remains underexplored, limiting their reliability in real-world applications. Existing hallucination detection methods are designed for AR-LLMs and rely on signals from single-step generation, making them ill-suited for D-LLMs where hallucination signals often emerge throughout the multi-step denoising process. To bridge this gap, we propose TraceDet, a novel framework that explicitly leverages the intermediate denoising steps of D-LLMs for hallucination detection. TraceDet models the denoising process as an action trace, with each action defined as the model's prediction over the cleaned response, conditioned on the previous intermediate output. By identifying the sub-trace that is maximally informative to the hallucinated responses, TraceDet leverages the key hallucination signals in the multi-step denoising process of D-LLMs for hallucination detection. Extensive experiments on various open source D-LLMs demonstrate that TraceDet consistently improves hallucination detection, achieving an average gain in AUROC of 15.2% compared to baselines.
- Abstract(参考訳): 拡散型大規模言語モデル(D-LLM)は、最近、自己回帰型LLM(AR-LLM)に代わる有望な代替品として登場した。
しかし、D-LLMの幻覚問題は未解決のままであり、現実のアプリケーションでは信頼性が制限されている。
既存の幻覚検出法はAR-LLM向けに設計されており、単一ステップ生成からの信号に依存しているため、多ステップ復調過程を通じて幻覚信号が出現するD-LLMには不適である。
このギャップを埋めるため,幻覚検出のために,D-LLMの中間段階を明示的に活用する新しいフレームワークであるTraceDetを提案する。
TraceDetは、denoisingプロセスをアクショントレースとしてモデル化し、各アクションは、前の中間出力で条件付けられたクリーン化されたレスポンスに対するモデルの予測として定義される。
幻覚応答に最大に影響を及ぼすサブトレースを同定することにより、TraceDetは幻覚検出のためのD-LLMの多段階認知過程において、キー幻覚信号を利用する。
様々なオープンソースD-LLMの大規模な実験により、TraceDetは幻覚検出を一貫して改善し、AUROCの平均利得はベースラインに比べて15.2%に達した。
関連論文リスト
- LLM Hallucination Detection: A Fast Fourier Transform Method Based on Hidden Layer Temporal Signals [10.85580316542761]
幻覚は、信頼性に敏感なアプリケーションに大規模言語モデル(LLM)をデプロイする上で、依然として重要な障壁である。
隠れ表現の時間的ダイナミクスをモデル化する新しい幻覚検出フレームワークであるHSAD(Hidden Signal Analysis-based Detection)を提案する。
TruthfulQAを含む複数のベンチマークにおいて、HSADは従来の最先端手法に比べて10パーセント以上の改善を実現している。
論文 参考訳(メタデータ) (2025-09-16T15:08:19Z) - Cross-Layer Attention Probing for Fine-Grained Hallucination Detection [6.83291363146574]
幻覚検出のための新しいアクティベーション・プロブリング技術であるCLAP(Cross-Layer Attention Probing)を提案する。
実験により,CLAPは脱コード応答と高温度でサンプリングされた応答の両方のベースラインと比較して幻覚検出を改善することが示された。
CLAPは、アウト・オブ・ディストリビューションを適用しても高い信頼性を維持する。
論文 参考訳(メタデータ) (2025-09-04T14:37:34Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。