論文の概要: HalluZig: Hallucination Detection using Zigzag Persistence
- arxiv url: http://arxiv.org/abs/2601.01552v1
- Date: Sun, 04 Jan 2026 14:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.526809
- Title: HalluZig: Hallucination Detection using Zigzag Persistence
- Title(参考訳): HalluZig: Zigzag Persistence を用いた幻覚検出
- Authors: Shreyas N. Samaga, Gilberto Gonzalez Arroyo, Tamal K. Dey,
- Abstract要約: 本稿では,モデルの層的注意の動的トポロジを解析し,幻覚検出のための新しいパラダイムを提案する。
我々の中心となる仮説は、事実的および幻覚的世代は、異なる位相的シグネチャを示すというものである。
フレームワークであるHaluZigを複数のベンチマークで検証し、強力なベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.1687274452793636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The factual reliability of Large Language Models (LLMs) remains a critical barrier to their adoption in high-stakes domains due to their propensity to hallucinate. Current detection methods often rely on surface-level signals from the model's output, overlooking the failures that occur within the model's internal reasoning process. In this paper, we introduce a new paradigm for hallucination detection by analyzing the dynamic topology of the evolution of model's layer-wise attention. We model the sequence of attention matrices as a zigzag graph filtration and use zigzag persistence, a tool from Topological Data Analysis, to extract a topological signature. Our core hypothesis is that factual and hallucinated generations exhibit distinct topological signatures. We validate our framework, HalluZig, on multiple benchmarks, demonstrating that it outperforms strong baselines. Furthermore, our analysis reveals that these topological signatures are generalizable across different models and hallucination detection is possible only using structural signatures from partial network depth.
- Abstract(参考訳): LLM(Large Language Models)の事実的信頼性は、幻覚への適合性から、ハイテイクドメインへの導入において重要な障壁となっている。
現在の検出法は、しばしばモデルの内部推論プロセスで発生する故障を見越して、モデル出力の表面レベル信号に依存する。
本稿では,モデルの層的注意の進化の動的トポロジーを解析し,幻覚検出のための新しいパラダイムを提案する。
我々は,注目行列列をジグザググラフフィルタとしてモデル化し,トポロジカルデータ解析のツールであるジグザグ永続性を用いてトポロジカルシグネチャを抽出する。
我々の中心となる仮説は、事実的および幻覚的世代は、異なる位相的シグネチャを示すというものである。
フレームワークであるHaluZigを複数のベンチマークで検証し、強力なベースラインよりも優れていることを示す。
さらに,これらのトポロジ的シグネチャは異なるモデルにまたがって一般化可能であり,幻覚検出は部分的ネットワーク深度からの構造的シグネチャのみを用いて可能であることを明らかにした。
関連論文リスト
- CoPHo: Classifier-guided Conditional Topology Generation with Persistent Homology [14.522233245543687]
トポロジー構造は、性能と堅牢性の研究を支える。
テストやリリースに望ましい特性を持つ合成グラフの生成。
条件ホモロジーを用いた持続的トポロジー生成(CoPho)を提案する。
4つのジェネリック/ネットワークデータセットの実験では、CoPHoがターゲットメトリクスにマッチする既存のメソッドよりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-12-17T13:10:22Z) - A Graph Signal Processing Framework for Hallucination Detection in Large Language Models [0.0]
事実記述は低周波収束と一貫した「エネルギー山」の挙動を示すが,幻覚型は異なる特徴を示す。
スペクトルシグネチャを用いた単純な検出器は、パープレキシティベースのベースラインに対して 88.75% の精度を達成する。
これらの結果は、スペクトル幾何学が推論パターンや誤りの振る舞いを捉え、大きな言語モデルで検出するためのフレームワークを提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-10-21T22:35:48Z) - The Shape of Adversarial Influence: Characterizing LLM Latent Spaces with Persistent Homology [4.280045926995889]
本研究では,大規模言語モデルの内部表現空間に対して,逆入力が体系的にどう影響するかに着目した。
アクティベーションの形状と神経情報の流れを定量化することにより、アーキテクチャに依存しない枠組みは、表現的変化の基本的な不変性を明らかにする。
論文 参考訳(メタデータ) (2025-05-26T18:31:49Z) - Dynamic Attention Analysis for Backdoor Detection in Text-to-Image Diffusion Models [70.03122709795122]
従来のバックドア検出手法は主にバックドアサンプルの静的特徴に焦点を当てていた。
本研究では、動的注意分析(DEA)と呼ばれる新しいバックドア検出視点を導入し、これらの動的特徴がバックドア検出の指標となることを示す。
我々の手法は既存の検出方法を大きく上回り、平均F1スコアは79.49%、AUCは87.67%に達した。
論文 参考訳(メタデータ) (2025-04-29T07:59:35Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。