論文の概要: HalluField: Detecting LLM Hallucinations via Field-Theoretic Modeling
- arxiv url: http://arxiv.org/abs/2509.10753v1
- Date: Fri, 12 Sep 2025 23:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.76183
- Title: HalluField: Detecting LLM Hallucinations via Field-Theoretic Modeling
- Title(参考訳): HalluField:フィールド理論モデリングによるLLM幻覚の検出
- Authors: Minh Vu, Brian K. Tran, Syed A. Shah, Geigh Zollicoffer, Nhat Hoang-Xuan, Manish Bhattarai,
- Abstract要約: HalluFieldは、パラメタライズド変分原理と熱力学に基づく幻覚検出のための新しい場の理論的アプローチである。
温度と可能性の変化の下でトークンの経路でエネルギーとエントロピーの分布がどのように変化するかを分析することで、HaluFieldは応答のセマンティック安定性を定量化する。
HalluFieldは、微調整や補助的なニューラルネットワークを必要とせずに、モデルの出力ロジットを直接操作する。
- 参考スコア(独自算出の注目度): 2.8694047572572026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit impressive reasoning and question-answering capabilities. However, they often produce inaccurate or unreliable content known as hallucinations. This unreliability significantly limits their deployment in high-stakes applications. Thus, there is a growing need for a general-purpose method to detect hallucinations in LLMs. In this work, we introduce HalluField, a novel field-theoretic approach for hallucination detection based on a parametrized variational principle and thermodynamics. Inspired by thermodynamics, HalluField models an LLM's response to a given query and temperature setting as a collection of discrete likelihood token paths, each associated with a corresponding energy and entropy. By analyzing how energy and entropy distributions vary across token paths under changes in temperature and likelihood, HalluField quantifies the semantic stability of a response. Hallucinations are then detected by identifying unstable or erratic behavior in this energy landscape. HalluField is computationally efficient and highly practical: it operates directly on the model's output logits without requiring fine-tuning or auxiliary neural networks. Notably, the method is grounded in a principled physical interpretation, drawing analogies to the first law of thermodynamics. Remarkably, by modeling LLM behavior through this physical lens, HalluField achieves state-of-the-art hallucination detection performance across models and datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は印象的な推論と質問応答能力を示す。
しかし、幻覚として知られる不正確な、または信頼できないコンテンツをしばしば生成する。
この信頼性の低いアプリケーションへのデプロイが大幅に制限される。
したがって、LLMの幻覚を検出する汎用的な方法の必要性が高まっている。
本研究では,パラメトリズド変分原理と熱力学に基づく幻覚検出のための新しい場の理論的アプローチであるHaluFieldを紹介する。
熱力学にインスパイアされたHaluFieldは、与えられたクエリと温度設定に対するLLMの応答を、それぞれ対応するエネルギーとエントロピーに関連付けられた離散的な確率トークンパスの集合としてモデル化する。
温度と可能性の変化の下でトークンの経路でエネルギーとエントロピーの分布がどのように変化するかを分析することで、HaluFieldは応答のセマンティック安定性を定量化する。
幻覚は、このエネルギーの風景の中で不安定または不規則な振る舞いを識別することによって検出される。
HalluFieldは計算効率が高く、非常に実用的であり、微調整や補助的なニューラルネットワークを必要とせずに、モデルの出力ロジットを直接操作する。
特に、この方法は、熱力学の最初の法則に類似した、原則化された物理的解釈に基礎を置いている。
注目すべきは、この物理レンズを通してLLMの挙動をモデル化することにより、HaluFieldはモデルとデータセット間の最先端の幻覚検出性能を達成することである。
関連論文リスト
- Grounding the Ungrounded: A Spectral-Graph Framework for Quantifying Hallucinations in multimodal LLMs [19.099044165107696]
大規模な言語モデルにおける幻覚を定量化するための拡散力学における厳密な情報幾何学的枠組みを初めて紹介する。
我々のフレームワークは、時間をかけて幻覚の進化を捉える、モダリティを意識した理論的に解釈可能なメトリクスを提供する。
この研究は幻覚の定量化と有界化の原理的な基礎を確立し、それらを質的なリスクから、抽出可能な分析可能な現象に変換する。
論文 参考訳(メタデータ) (2025-08-26T18:54:52Z) - Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - Enhancing Hallucination Detection through Noise Injection [9.582929634879932]
大型言語モデル(LLM)は、幻覚として知られる、もっとも不正確な応答を生成する傾向にある。
ベイズ感覚のモデル不確実性を考慮し,検出精度を著しく向上できることを示す。
サンプリング中にモデルパラメータの適切なサブセット、あるいは等価に隠されたユニットアクティベーションを摂動する、非常に単純で効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T06:02:20Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Uhlmann Fidelity and Fidelity Susceptibility for Integrable Spin Chains
at Finite Temperature: Exact Results [68.8204255655161]
奇数パリティ部分空間の適切な包含は、中間温度範囲における最大忠実度感受性の向上につながることを示す。
正しい低温の挙動は、2つの最も低い多体エネルギー固有状態を含む近似によって捉えられる。
論文 参考訳(メタデータ) (2021-05-11T14:08:02Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Probing eigenstate thermalization in quantum simulators via
fluctuation-dissipation relations [77.34726150561087]
固有状態熱化仮説(ETH)は、閉量子多体系の平衡へのアプローチの普遍的なメカニズムを提供する。
本稿では, ゆらぎ・散逸関係の出現を観測し, 量子シミュレータのフルETHを探索する理論に依存しない経路を提案する。
我々の研究は、量子シミュレータにおける熱化を特徴づける理論に依存しない方法を示し、凝縮物質ポンプ-プローブ実験をシミュレーションする方法を舗装する。
論文 参考訳(メタデータ) (2020-07-20T18:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。