論文の概要: Beyond In-Domain Detection: SpikeScore for Cross-Domain Hallucination Detection
- arxiv url: http://arxiv.org/abs/2601.19245v1
- Date: Tue, 27 Jan 2026 06:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.201307
- Title: Beyond In-Domain Detection: SpikeScore for Cross-Domain Hallucination Detection
- Title(参考訳): ドメイン内検出を超えて:クロスドメイン幻覚検出のためのSpikeScore
- Authors: Yongxin Deng, Zhen Fang, Yixuan Li, Ling Chen,
- Abstract要約: 既存の幻覚検出手法は、トレーニングデータとテストデータが同じドメインから来ると、高い性能が得られる。
本稿では,1つの領域のデータから幻覚検出器を訓練することを目的とした,一般幻覚検出(Generalizable Hallucination Detection, GHD)と呼ばれる重要な問題について検討する。
この現象に基づいて,マルチターン対話における急激な変動を定量化する新しいスコアSpikeScoreを提案する。
- 参考スコア(独自算出の注目度): 29.947953146920995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination detection is critical for deploying large language models (LLMs) in real-world applications. Existing hallucination detection methods achieve strong performance when the training and test data come from the same domain, but they suffer from poor cross-domain generalization. In this paper, we study an important yet overlooked problem, termed generalizable hallucination detection (GHD), which aims to train hallucination detectors on data from a single domain while ensuring robust performance across diverse related domains. In studying GHD, we simulate multi-turn dialogues following LLMs initial response and observe an interesting phenomenon: hallucination-initiated multi-turn dialogues universally exhibit larger uncertainty fluctuations than factual ones across different domains. Based on the phenomenon, we propose a new score SpikeScore, which quantifies abrupt fluctuations in multi-turn dialogues. Through both theoretical analysis and empirical validation, we demonstrate that SpikeScore achieves strong cross-domain separability between hallucinated and non-hallucinated responses. Experiments across multiple LLMs and benchmarks demonstrate that the SpikeScore-based detection method outperforms representative baselines in cross-domain generalization and surpasses advanced generalization-oriented methods, verifying the effectiveness of our method in cross-domain hallucination detection.
- Abstract(参考訳): 幻覚検出は、大規模言語モデル(LLM)を現実世界のアプリケーションにデプロイするために重要である。
既存の幻覚検出手法は、トレーニングデータとテストデータが同じドメインから来ると高い性能を得るが、それらはクロスドメインの一般化に苦しむ。
本稿では,多種多様な領域にわたる堅牢な性能を確保しつつ,一つの領域からのデータに対する幻覚検出を訓練することを目的とした,一般幻覚検出(Generalizable Hallucination Detection, GHD)と呼ばれる重要な課題について検討する。
GHDの研究において,LLMの初期応答に倣って多ターン対話をシミュレートし,興味深い現象を観察する。
この現象に基づいて,マルチターン対話における急激な変動を定量化する新しいスコアSpikeScoreを提案する。
理論的解析と実証的検証の両方を通して、SpikeScoreは幻覚応答と非幻覚応答の強いクロスドメイン分離性を実現することを示した。
複数のLCMおよびベンチマーク実験により、SpikeScoreベースの検出手法は、クロスドメインの一般化において代表ベースラインよりも優れ、高度な一般化指向の手法を超越し、クロスドメインの幻覚検出における本手法の有効性を検証した。
関連論文リスト
- Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs [47.18623962083962]
大規模言語モデルにおける幻覚検出のための新しい手法を提案する。
その結果,幻覚応答は接地応答に比べて刺激からの偏差が小さいことがわかった。
本稿では,分布距離を原理的幻覚スコアとして用いたモデル固有検出法を提案する。
論文 参考訳(メタデータ) (2025-06-11T15:59:15Z) - Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation [78.78421340836915]
オープンドメイン長文応答における参照なし幻覚検出を系統的に検討する。
その結果,内的状態は事実と幻覚的内容とを確実に区別するには不十分であることが判明した。
RATE-FTと呼ばれる新しいパラダイムを導入し、モデルが幻覚検出のメインタスクと共同で学習するための補助的なタスクで微調整を強化する。
論文 参考訳(メタデータ) (2025-05-18T07:10:03Z) - Prompt-Guided Internal States for Hallucination Detection of Large Language Models [8.218777718463627]
大規模言語モデル(LLM)の幻覚検出のための新しい枠組み、即時誘導型内部状態を提案する。
この構造を、異なるドメインのテキスト間でより健全で一貫性のあるものにします。
実験結果から,本フレームワークは既存の幻覚検出手法のクロスドメイン一般化を著しく促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-11-07T16:33:48Z) - Unified Hallucination Detection for Multimodal Large Language Models [44.333451078750954]
マルチモーダル大言語モデル(MLLM)は幻覚の重要な問題に悩まされている。
本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。
我々は,幻覚の発生を確実に検証するために,一連の補助ツールを活用する,新しい統合型マルチモーダル幻覚検出フレームワークUNIHDを公表した。
論文 参考訳(メタデータ) (2024-02-05T16:56:11Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。