論文の概要: Catching Contamination Before Generation: Spectral Kill Switches for Agents
- arxiv url: http://arxiv.org/abs/2511.05804v1
- Date: Sat, 08 Nov 2025 02:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.585894
- Title: Catching Contamination Before Generation: Spectral Kill Switches for Agents
- Title(参考訳): キャッチ汚染の発生前: エージェントのスペクトルキラースイッチ
- Authors: Valentin Noël,
- Abstract要約: 本稿では,フォワードパスのみを使用してエージェント実行中にバイナリ受信や拒否信号を出力する診断手法を提案する。
この手法は、注意によって誘導されるトークングラフを分析し、初期層における2つのスペクトル統計量を計算する。
ベイズ感覚では, 高頻度エネルギー比の1つの閾値が, 文脈の不整合を検出するのに最適であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic language models compose multi step reasoning chains, yet intermediate steps can be corrupted by inconsistent context, retrieval errors, or adversarial inputs, which makes post hoc evaluation too late because errors propagate before detection. We introduce a diagnostic that requires no additional training and uses only the forward pass to emit a binary accept or reject signal during agent execution. The method analyzes token graphs induced by attention and computes two spectral statistics in early layers, namely the high frequency energy ratio and spectral entropy. We formalize these signals, establish invariances, and provide finite sample estimators with uncertainty quantification. Under a two regime mixture assumption with a monotone likelihood ratio property, we show that a single threshold on the high frequency energy ratio is optimal in the Bayes sense for detecting context inconsistency. Empirically, the high frequency energy ratio exhibits robust bimodality during context verification across multiple model families, which enables gating decisions with overhead below one millisecond on our hardware and configurations. We demonstrate integration into retrieval augmented agent pipelines and discuss deployment as an inline safety monitor. The approach detects contamination while the model is still processing the text, before errors commit to the reasoning chain.
- Abstract(参考訳): エージェント言語モデルは、多段階推論チェーンを構成するが、中間ステップは、一貫性のないコンテキスト、検索エラー、あるいは逆入力によって破損し、エラーが検出前に伝播するので、ポストホック評価が遅すぎる。
我々は、追加のトレーニングを必要とせず、フォワードパスのみを使用してエージェント実行中にバイナリアクセプションやリジェクションシグナルを出力する診断を導入する。
この手法は、注意によって誘導されるトークングラフを分析し、初期層における2つのスペクトル統計、すなわち高周波エネルギー比とスペクトルエントロピーを計算する。
我々はこれらの信号を定式化し、不変性を確立し、不確実性のある有限サンプル推定器を提供する。
2つの状態混合仮定とモノトン確率比特性により, ベイズ感覚における高周波数エネルギー比の1つの閾値が, 文脈不整合を検出するのに最適であることを示す。
経験的に、高周波エネルギー比は、複数のモデルファミリ間のコンテキスト検証中に頑健なバイモーダリティを示し、ハードウェアと構成のオーバーヘッドが1ミリ秒未満のゲーティング決定を可能にする。
検索エージェントパイプラインへの統合を実演し,インライン安全モニタとしての展開について議論する。
モデルがまだテキストを処理している間、エラーが推論チェーンにコミットする前に、このアプローチは汚染を検出する。
関連論文リスト
- Robust semi-parametric signal detection in particle physics with classifiers decorrelated via optimal transport [0.1565870461096057]
我々は、信号リッチ化ステップを使用して、信号リッチサンプル上で信号検出テストを行う。
その結果, 脱相関法は中程度の背景不特定性に対して頑健であることが判明した。
我々は、デコレーションと信号の富化が安定的で、堅牢で、有効で、より強力なテストを生み出すと結論付けている。
論文 参考訳(メタデータ) (2024-09-10T10:32:21Z) - Generative adversarial wavelet neural operator: Application to fault
detection and isolation of multivariate time series data [3.265784083548797]
本稿では,障害検出と分離のための新しい教師なし深層学習手法として,GAWNO(Generative Adversarial Wavelet Neural operator)を提案する。
最初の段階では、GAWNOは通常の運用条件のデータセットに基づいてトレーニングされ、基礎となるデータ分布を学習する。
第2段階では, 差分値に基づいて故障を検出し, 分離するために, 再構成誤差に基づくしきい値法を用いる。
論文 参考訳(メタデータ) (2024-01-08T16:36:47Z) - E-detectors: a nonparametric framework for sequential change detection [86.15115654324488]
逐次的変化検出のための基本的かつ汎用的なフレームワークを開発する。
私たちの手順は、平均走行距離のクリーンで無症状な境界が伴います。
統計的および計算効率の両方を達成するために,これらの混合物を設計する方法を示す。
論文 参考訳(メタデータ) (2022-03-07T17:25:02Z) - Mitigating the Mutual Error Amplification for Semi-Supervised Object
Detection [92.52505195585925]
擬似ラベルの修正機構を導入し,相互誤りの増幅を緩和するクロス・インストラクション(CT)手法を提案する。
他の検出器からの予測を直接擬似ラベルとして扱う既存の相互指導法とは対照的に,我々はラベル修正モジュール(LRM)を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:34:57Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。