論文の概要: The Energy of Falsehood: Detecting Hallucinations via Diffusion Model Likelihoods
- arxiv url: http://arxiv.org/abs/2602.11364v1
- Date: Wed, 11 Feb 2026 20:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.539714
- Title: The Energy of Falsehood: Detecting Hallucinations via Diffusion Model Likelihoods
- Title(参考訳): Falsehoodのエネルギー:拡散モデルによる幻覚の検出
- Authors: Arpit Singh Gautam, Kailash Talreja, Saurabh Jha,
- Abstract要約: LLM(Large Language Models)は、しばしばもっともらしいが誤った主張を幻覚させる。
非平衡熱力学による事実検証を再現する,教師なしのフレームワークであるDiffuTruthを提案する。
- 参考スコア(独自算出の注目度): 0.9877005520976847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) frequently hallucinate plausible but incorrect assertions, a vulnerability often missed by uncertainty metrics when models are confidently wrong. We propose DiffuTruth, an unsupervised framework that reconceptualizes fact verification via non equilibrium thermodynamics, positing that factual truths act as stable attractors on a generative manifold while hallucinations are unstable. We introduce the Generative Stress Test, claims are corrupted with noise and reconstructed using a discrete text diffusion model. We define Semantic Energy, a metric measuring the semantic divergence between the original claim and its reconstruction using an NLI critic. Unlike vector space errors, Semantic Energy isolates deep factual contradictions. We further propose a Hybrid Calibration fusing this stability signal with discriminative confidence. Extensive experiments on FEVER demonstrate DiffuTruth achieves a state of the art unsupervised AUROC of 0.725, outperforming baselines by 1.5 percent through the correction of overconfident predictions. Furthermore, we show superior zero shot generalization on the multi hop HOVER dataset, outperforming baselines by over 4 percent, confirming the robustness of thermodynamic truth properties to distribution shifts.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば、確実だが誤った主張を幻覚させる。
非平衡熱力学による事実検証を再現する教師なしのフレームワークであるDiffuTruthを提案し、幻覚が不安定である間に、事実真理が生成多様体上の安定な魅力として働くことを示唆する。
本稿では, 離散テキスト拡散モデルを用いて, ノイズでクレームが破損し, 再構成された生成応力試験を紹介する。
セマンティック・エナジー(Semantic Energy)は,NLI評論家を用いて,原主張と再構成のセマンティック・ディペンデンスを測定する指標である。
ベクトル空間誤差とは異なり、セマンティック・エナジーは深い事実矛盾を分離する。
さらに,この安定信号を識別信頼度で表現するハイブリッドキャリブレーションを提案する。
FEVERの大規模な実験では、DiffuTruthは最先端の教師なしのAUROCを0.725で達成し、自信過剰な予測の修正によってベースラインを1.5パーセント上回った。
さらに,マルチホップHOVERデータセットにおいて,熱力学的真理特性の分布シフトに対するロバスト性を確認し,ベースラインを4%以上上回り,優れたゼロショット一般化を示す。
関連論文リスト
- Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - Stable but Miscalibrated: A Kantian View on Overconfidence from Filters to Large Language Models [0.0]
我々は、カントの純粋推論批判をフィードバック安定性の理論として解釈し、推論を可能な経験の範囲内で保持する規制機関としての理由を考察する。
我々は、スペクトルマージン、条件付け、時間感度、革新増幅を組み合わせた複合不安定指数(H-Risk)を用いて、この直観を定式化する。
内部の脆さと誤校正・幻覚(癒合)の予備的相関を観察し,軽度の批判的プロンプトが小さめの検査で緩やかに校正を改善したり悪化させたりすることを発見した。
論文 参考訳(メタデータ) (2025-10-16T17:40:28Z) - Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models [9.660348625678001]
大きな言語モデル(LLM)は幻覚を生じさせ、事実的に間違っているが確実なアサーションを生み出します。
本稿では,通常の注意をCAM(Credal Attention Mechanism)に置き換えるCredal Transformerを紹介する。
論文 参考訳(メタデータ) (2025-10-14T04:31:49Z) - Proximity-Based Evidence Retrieval for Uncertainty-Aware Neural Networks [6.9681910774977815]
本研究は,不確実性を考慮した意思決定のためのエビデンス・検索機構を提案する。
それぞれのテストインスタンスに対して、例題は埋め込み空間で検索され、それらの予測分布はデンプスター・シェーファー理論を介して融合される。
支持する証拠は明確であるため、決定は透明で監査可能である。
論文 参考訳(メタデータ) (2025-09-11T13:12:22Z) - Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Confidence and Dispersity Speak: Characterising Prediction Matrix for
Unsupervised Accuracy Estimation [51.809741427975105]
この研究は、ラベルを使わずに、分散シフト下でのモデルの性能を評価することを目的としている。
我々は、両方の特性を特徴付けるのに有効であることが示されている核規範を用いる。
核の基準は既存の手法よりも正確で堅牢であることを示す。
論文 参考訳(メタデータ) (2023-02-02T13:30:48Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。