論文の概要: From Flat Facts to Sharp Hallucinations: Detecting Stubborn Errors via Gradient Sensitivity
- arxiv url: http://arxiv.org/abs/2605.00939v1
- Date: Fri, 01 May 2026 04:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.498599
- Title: From Flat Facts to Sharp Hallucinations: Detecting Stubborn Errors via Gradient Sensitivity
- Title(参考訳): フラット・ファクトからシャープ・幻覚:グラディエント・感度によるスタバボーン・エラーの検出
- Authors: Yee Zhing Liew, Andrew Huey Ping Tan, Anwar P. P Abdul Majeed,
- Abstract要約: 従来の幻覚検出は「Stubborn Hallucinations」で失敗する
埋め込み・摂動勾配感度(EPGS)という幾何学的解を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional hallucination detection fails on "Stubborn Hallucinations" -- errors where LLMs are confidently wrong. We propose a geometric solution: Embedding-Perturbed Gradient Sensitivity (EPGS). We hypothesize that while robust facts reside in flat minima, stubborn hallucinations sit in sharp minima, supported by brittle memorization. EPGS detects this sharpness by perturbing input embeddings with Gaussian noise and measuring the resulting spike in gradient magnitude. This acts as an efficient proxy for the Hessian spectrum, differentiating stable knowledge from unstable memorization. Our experiments show that EPGS significantly outperforms entropy-based and representation-based baselines, providing a robust signal for detecting high-confidence factual errors.
- Abstract(参考訳): 従来の幻覚検出は "Stubborn Hallucinations" -- LLMが確実に間違っているエラー -- で失敗する。
本稿では,埋め込み・摂動勾配感度 (EPGS) という幾何学的解を提案する。
我々は、頑健な事実は平らなミニマの中に存在するが、頑健な幻覚は鋭いミニマの中にあり、脆い記憶によって支えられていると仮定する。
EPGSは、ガウス雑音で入力埋め込みを摂動させ、結果として生じる勾配のスパイクを測定することで、このシャープさを検出する。
これはヘッセンスペクトルの効率的なプロキシとして機能し、不安定な記憶から安定した知識を区別する。
実験の結果,EPGSはエントロピーに基づくベースラインや表現に基づくベースラインを著しく上回り,信頼度の高い事実誤りを検出できるロバストな信号を提供することがわかった。
関連論文リスト
- DynHD: Hallucination Detection for Diffusion Large Language Models via Denoising Dynamics Deviation Learning [48.77865928715759]
拡散大言語モデル (D-LLM) は自己回帰モデルに代わる有望な代替品として登場した。
幻覚は 信頼性を損なう重要な問題です
本研究では,これらのギャップを空間的(トケンシーケンス)と時間的(デノナイジングダイナミクス)の両方の観点から橋渡しするDynHDを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:40:29Z) - Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation [9.540386616651295]
CoT(Chain-of-Thought)は、ステップバイステップ推論を奨励することによって幻覚を緩和する。
我々の研究は、推論の利用における見落とされがちなトレードオフを浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-20T15:49:37Z) - RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [26.186204911845866]
幻覚は大きな言語モデルにとって 重要な障害です
これら2つの側面により不確実性の測定を補正するRePPLを提案する。
提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:23:05Z) - Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training [17.347067827911406]
トレーニングダイナミクスの不確かさと幻覚の出現との関係について検討する。
本稿では,学習中の幻覚のばらつきを軽減するための新しいトレーニングプロトコルであるSensitivity Dropout (SenD)を提案する。
SenDは、PythiaとMetaのLlamaモデルのテスト時の信頼性を最大17%向上し、Wikipedia、メディカル、法律、コーディングドメインの事実精度を向上させる。
論文 参考訳(メタデータ) (2024-10-20T18:18:23Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。