論文の概要: EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs
- arxiv url: http://arxiv.org/abs/2509.15735v1
- Date: Fri, 19 Sep 2025 08:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.066949
- Title: EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs
- Title(参考訳): EigenTrack:LLMおよびVLMにおける幻覚と分布外検出のためのスペクトル活性化特徴追跡
- Authors: Davide Ettori, Nastaran Darabi, Sina Tayebati, Ranganath Krishnan, Mahesh Subedar, Omesh Tickoo, Amit Ranjan Trivedi,
- Abstract要約: EigenTrackは大規模言語モデル(LLM)のための解釈可能なリアルタイム検出器である
表面誤差が現れる前に幻覚とOODドリフトを信号する表現構造における時間的シフトを追跡する。
既存のホワイトボックス検出器とは異なり、時間的コンテキストを保存し、グローバルシグナルを集約し、解釈可能な精度-遅延トレードオフを提供する。
- 参考スコア(独自算出の注目度): 8.616813040714883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) offer broad utility but remain prone to hallucination and out-of-distribution (OOD) errors. We propose EigenTrack, an interpretable real-time detector that uses the spectral geometry of hidden activations, a compact global signature of model dynamics. By streaming covariance-spectrum statistics such as entropy, eigenvalue gaps, and KL divergence from random baselines into a lightweight recurrent classifier, EigenTrack tracks temporal shifts in representation structure that signal hallucination and OOD drift before surface errors appear. Unlike black- and grey-box methods, it needs only a single forward pass without resampling. Unlike existing white-box detectors, it preserves temporal context, aggregates global signals, and offers interpretable accuracy-latency trade-offs.
- Abstract(参考訳): 大型言語モデル (LLMs) は幅広いユーティリティを提供するが、幻覚やアウト・オブ・ディストリビューション(OOD)のエラーを起こしやすい。
本稿では,隠れアクティベーションのスペクトル幾何学を用いた解釈可能なリアルタイム検出器であるEigenTrackを提案する。
エントロピー、固有値ギャップ、KLのような共分散スペクトル統計をランダムなベースラインから軽量なリカレント分類器にストリーミングすることにより、EigenTrackは、表面誤差が現れる前に信号幻覚とOODドリフトが現れる表現構造における時間シフトを追跡する。
黒とグレーのボックスメソッドとは異なり、再サンプリングなしで1つのフォワードパスしか必要としない。
既存のホワイトボックス検出器とは異なり、時間的コンテキストを保存し、グローバルシグナルを集約し、解釈可能な精度-遅延トレードオフを提供する。
関連論文リスト
- LLM Hallucination Detection: A Fast Fourier Transform Method Based on Hidden Layer Temporal Signals [10.85580316542761]
幻覚は、信頼性に敏感なアプリケーションに大規模言語モデル(LLM)をデプロイする上で、依然として重要な障壁である。
隠れ表現の時間的ダイナミクスをモデル化する新しい幻覚検出フレームワークであるHSAD(Hidden Signal Analysis-based Detection)を提案する。
TruthfulQAを含む複数のベンチマークにおいて、HSADは従来の最先端手法に比べて10パーセント以上の改善を実現している。
論文 参考訳(メタデータ) (2025-09-16T15:08:19Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Shaking to Reveal: Perturbation-Based Detection of LLM Hallucinations [25.18901449626428]
自己評価として知られる幻覚を検出するための広く採用されている戦略は、その答えの事実的正確さを推定するために、モデル自身の出力信頼度に依存する。
中間表現における摂動感度を解析することにより自己評価を改善する新しいフレームワークSSPを提案する。
SSPは幻覚検出ベンチマークの範囲で先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:44:28Z) - Trajectory Anomaly Detection with Language Models [21.401931052512595]
本稿では,自己回帰因果アテンションモデル(LM-TAD)を用いた軌道異常検出のための新しい手法を提案する。
トラジェクトリをトークンの列として扱うことにより、トラジェクトリ上の確率分布を学習し、高精度な異常位置の同定を可能にする。
本実験は, 合成および実世界の両方のデータセットに対するLM-TADの有効性を実証した。
論文 参考訳(メタデータ) (2024-09-18T17:33:31Z) - Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。
時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。
STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-14T02:26:10Z) - Graph Spatiotemporal Process for Multivariate Time Series Anomaly
Detection with Missing Values [67.76168547245237]
本稿では,グラフ時間過程と異常スコアラを用いて異常を検出するGST-Proという新しいフレームワークを提案する。
実験結果から,GST-Pro法は時系列データ中の異常を効果的に検出し,最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-11T10:10:16Z) - CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection [53.83593870825628]
時系列異常検出(TSAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。
既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。
本稿では,時系列異常検出のためのエンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T04:45:56Z) - Imputing Missing Observations with Time Sliced Synthetic Minority
Oversampling Technique [0.3973560285628012]
本稿では,データセット内の各サンプルに対して均一な不規則な時系列を構成することを目的とした,単純かつ斬新な時系列計算手法を提案する。
我々は、観測時間の重複しないビン(「スライス」と呼ばれる)の中間点で定義される格子を固定し、各サンプルが所定の時間にすべての特徴に対して値を持つことを保証する。
これにより、完全に欠落した観察をインプットし、データ全体の時系列の均一な分類を可能にし、特別な場合には個々の欠落した特徴をインプットすることができる。
論文 参考訳(メタデータ) (2022-01-14T19:23:24Z) - Real-time detection of anomalies in large-scale transient surveys [0.0]
本稿では, 異常な過渡光曲線を自動的にリアルタイムに検出する2つの新しい手法を提案する。
どちらの手法も、既知のトランジェント集団からの光曲線を正確にモデル化できるなら、モデル予測からの偏差は、おそらく異常である、という単純な考え方に基づいている。
論文 参考訳(メタデータ) (2021-10-29T18:29:25Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。