論文の概要: Sanity Checks for Long-Form Hallucination Detection
- arxiv url: http://arxiv.org/abs/2605.08346v1
- Date: Fri, 08 May 2026 18:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.580616
- Title: Sanity Checks for Long-Form Hallucination Detection
- Title(参考訳): 長期幻覚検出のための正当性検査
- Authors: Geigh Zollicoffer, Minh Vu, Hongli Zhan, Raymond Li, Manish Bhattarai,
- Abstract要約: 大規模言語モデルに対する幻覚検出法は、連鎖的推論トレースで機能するが、それらが推論自体を評価するか、あるいは最終回答の表面相関を単に活用するかは定かではない。
提案手法では,各応答の最終回答を基本的真理に置き換えるtextscForce と,軌道を無傷で残しながら回答発表ステップを除去する textscRemove という2つのオラクルテストを通じて,この区別を明らかにする制御不変性手法を導入する。
このことは、彼らの予測力が構造からではなく、答えレベルの成果物に由来するかどうかを明らかにする
- 参考スコア(独自算出の注目度): 6.501493411588847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination detection methods for large language models increasingly operate on chain-of-thought reasoning traces, yet it remains unclear whether they evaluate the reasoning itself or merely exploit surface correlates of the final answer. We introduce a controlled-invariance methodology that exposes this distinction through two oracle tests: \textsc{Force}, which replaces each response's final answer with the ground truth while preserving the reasoning trace, and \textsc{Remove}, which strips answer-announcement steps while leaving the trajectory intact. This reveals if their predictive power derives from answer-level artifacts rather than from the structure or validity of intermediate reasoning. We further show that once these artifacts are controlled for, effective detection does not necessarily require complex learned representations: TRACT, a lightweight scorer built on lexical trajectory features (hedging trends, step-length dynamics, and cross-response vocabulary convergence), achieves strong robustness while remaining competitive with or outperforming existing baselines on unperturbed traces. These findings suggest that the current central challenge in reasoning-aware hallucination detection is not the absence of signal in the trace, but the failure to isolate it from endpoint cues.
- Abstract(参考訳): 大規模言語モデルに対する幻覚検出手法は、チェーン・オブ・ソート推論のトレースでますます機能するが、それらが推論自体を評価しているか、あるいは単に最終回答の表面相関を利用しているかは定かではない。
そこで本研究では,各応答の最終回答を基本真理に置き換える「textsc{Force}」と,軌道を無傷で残しながら解答のステップを除去する「textsc{Remove}」という2つのオラクルテストを通じて,この区別を明らかにする制御不変性手法を提案する。
このことは、彼らの予測力が中間推論の構造や妥当性からではなく、答えレベルの成果物に由来するかどうかを明らかにする。
さらに、これらのアーティファクトが制御されると、有効検出は必ずしも複雑な学習表現を必要としないことを示す: TRACTは、語彙的トラジェクトリ特徴(ヘッジトレンド、ステップ長ダイナミックス、クロスレスポンスボキャブラリ収束)に基づいて構築された軽量スコアラーであり、未摂動トレース上の既存のベースラインとの競合や性能を保ちながら、強い堅牢性を達成する。
これらの結果から, 原因不明の幻覚検出における現在の中心的課題は, 痕跡に信号がないことではなく, 終末の手がかりからそれを取り除くことにあると考えられた。
関連論文リスト
- Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - DynHD: Hallucination Detection for Diffusion Large Language Models via Denoising Dynamics Deviation Learning [48.77865928715759]
拡散大言語モデル (D-LLM) は自己回帰モデルに代わる有望な代替品として登場した。
幻覚は 信頼性を損なう重要な問題です
本研究では,これらのギャップを空間的(トケンシーケンス)と時間的(デノナイジングダイナミクス)の両方の観点から橋渡しするDynHDを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:40:29Z) - The Phenomenology of Hallucinations [2.5782420501870296]
言語モデルが幻覚の原因となるのは、不確実性の検出に失敗するだけでなく、出力生成への統合に失敗するためである。
アーキテクチャ全体では、不確実な入力が確実に特定され、2-3$timesの高次元領域を実数入力の本質的な次元として占有する。
しかし、この内部信号は出力層と弱い結合であり、不確実性は低感度な部分空間に移行し、幾何学的に増幅されるが機能的にサイレントになる。
論文 参考訳(メタデータ) (2026-03-14T11:55:55Z) - Harnessing Reasoning Trajectories for Hallucination Detection via Answer-agreement Representation Shaping [31.704726867711955]
本稿では,検出フレンドリーなトレース条件表現を学習するAnswer-agreement Representation Shaping(ARS)を提案する。
ARSは小さな潜伏介入によって反現実的な答えを生成する。
ARSは検出を継続的に改善し、強いベースラインよりも大幅に向上する。
論文 参考訳(メタデータ) (2026-01-24T13:47:51Z) - Unsupervised Hallucination Detection by Inspecting Reasoning Processes [53.15199932086543]
非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
論文 参考訳(メタデータ) (2025-09-12T06:58:17Z) - Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - Joint Evaluation of Answer and Reasoning Consistency for Hallucination Detection in Large Reasoning Models [12.270274049887298]
トレースの推論は冗長あるいは論理的に矛盾する可能性があるため、新しい幻覚の源となる。
既存の幻覚検出法は主に回答レベルの不確実性に焦点を当てている。
LRMにおける幻覚検出に適した新しいフレームワークであるRASを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:54:04Z) - RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [26.186204911845866]
幻覚は大きな言語モデルにとって 重要な障害です
これら2つの側面により不確実性の測定を補正するRePPLを提案する。
提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。