論文の概要: The Geometry of Truth: Layer-wise Semantic Dynamics for Hallucination Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.04933v1
- Date: Mon, 06 Oct 2025 15:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.949501
- Title: The Geometry of Truth: Layer-wise Semantic Dynamics for Hallucination Detection in Large Language Models
- Title(参考訳): 真実の幾何学:大規模言語モデルにおける幻覚検出のためのレイヤーワイズ・セマンティックダイナミクス
- Authors: Amir Hameed Mir,
- Abstract要約: 本稿では,幻覚検出のための幾何学的枠組みであるLayer-wise Semantic Dynamicsを提案する。
LSDは本質的にモデルの表現空間内で機能する。
The TruthfulQA and synthetic factual-hallucination datasets。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) often produce fluent yet factually incorrect statements-a phenomenon known as hallucination-posing serious risks in high-stakes domains. We present Layer-wise Semantic Dynamics (LSD), a geometric framework for hallucination detection that analyzes the evolution of hidden-state semantics across transformer layers. Unlike prior methods that rely on multiple sampling passes or external verification sources, LSD operates intrinsically within the model's representational space. Using margin-based contrastive learning, LSD aligns hidden activations with ground-truth embeddings derived from a factual encoder, revealing a distinct separation in semantic trajectories: factual responses preserve stable alignment, while hallucinations exhibit pronounced semantic drift across depth. Evaluated on the TruthfulQA and synthetic factual-hallucination datasets, LSD achieves an F1-score of 0.92, AUROC of 0.96, and clustering accuracy of 0.89, outperforming SelfCheckGPT and Semantic Entropy baselines while requiring only a single forward pass. This efficiency yields a 5-20x speedup over sampling-based methods without sacrificing precision or interpretability. LSD offers a scalable, model-agnostic mechanism for real-time hallucination monitoring and provides new insights into the geometry of factual consistency within large language models.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、しばしば流動的だが事実的に誤った文を生成する。
本稿では,トランス層間の隠れ状態意味論の進化を解析する幻覚検出のための幾何学的フレームワークであるLayer-wise Semantic Dynamics(LSD)を提案する。
複数のサンプリングパスや外部認証ソースに依存する従来の方法とは異なり、LSDは本質的にモデルの表現空間内で動作している。
マージンベースのコントラスト学習を用いて、LSDは隠れたアクティベーションを、実際のエンコーダから派生した接地的真実の埋め込みと整合させ、意味的軌道の明確な分離を明らかにする。
トゥルースフルQAと合成ファクト・ハロシン化データセットに基づいて評価され、LSDはF1スコアの0.92、AUROCの0.96、クラスタリング精度の0.89を達成し、1回のフォワードパスしか必要とせず、セルフチェックGPTとセマンティックエントロピーのベースラインを上回っている。
この効率は、精度や解釈性を犠牲にすることなくサンプリングベースの手法よりも5-20倍のスピードアップが得られる。
LSDは、リアルタイム幻覚モニタリングのためのスケーラブルでモデルに依存しないメカニズムを提供し、大規模言語モデルにおける事実整合性の幾何学に関する新たな洞察を提供する。
関連論文リスト
- Beyond ROUGE: N-Gram Subspace Features for LLM Hallucination Detection [5.0106565473767075]
大規模言語モデル(LLM)は、自然言語を含む様々なタスクにおいて有効性を示す。
幻覚の根本的な問題は依然としてこれらのモデルに悩まされており、一貫性のある真正な情報を生成する際の信頼性を制限している。
LLM生成テキストからN-Gram周波数テンソルを構成するROUGEにインスパイアされた新しい手法を提案する。
このテンソルは共起パターンを符号化することでよりリッチな意味構造を捉え、事実と幻覚的コンテンツをよりよく区別することができる。
論文 参考訳(メタデータ) (2025-09-03T18:52:24Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding [72.15848305976706]
大規模マルチモーダルモデル(LMM)は視覚知覚と推論において顕著な進歩を遂げた。
視覚的に曖昧で非意味的なシーンテキストに直面すると、コンテンツを正確に見つけて理解するのに苦労することが多い。
本稿では,2つの主要コンポーネントからなる学習自由な意味幻覚緩和フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T19:53:19Z) - RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection [26.186204911845866]
幻覚は大きな言語モデルにとって 重要な障害です
これら2つの側面により不確実性の測定を補正するRePPLを提案する。
提案手法は,様々なQAデータセットにまたがる最高の包括的検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:23:05Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。