論文の概要: Mechanistic Anomaly Detection via Functional Attribution
- arxiv url: http://arxiv.org/abs/2604.18970v1
- Date: Tue, 21 Apr 2026 01:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.568248
- Title: Mechanistic Anomaly Detection via Functional Attribution
- Title(参考訳): 機能的属性による機械的異常検出
- Authors: Hugo Lyons Keenan, Christopher Leckie, Sarah Erfani,
- Abstract要約: ニューラルネットワークにおける異常検出のための機能的帰属問題を実装する。
視覚モデルにおけるバックドアに対しては,BackdoorBenchの最先端検出を実現する。
本研究は,デプロイモデルにおける異常な振る舞いを検出するための,効果的なモダリティに依存しないツールとして,機能的属性を確立した。
- 参考スコア(独自算出の注目度): 6.1937472685875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We can often verify the correctness of neural network outputs using ground truth labels, but we cannot reliably determine whether the output was produced by normal or anomalous internal mechanisms. Mechanistic anomaly detection (MAD) aims to flag these cases, but existing methods either depend on latent space analysis, which is vulnerable to obfuscation, or are specific to particular architectures and modalities. We reframe MAD as a functional attribution problem: asking to what extent samples from a trusted set can explain the model's output, where attribution failure signals anomalous behavior. We operationalize this using influence functions, measuring functional coupling between test samples and a small reference set via parameter-space sampling. We evaluate across multiple anomaly types and modalities. For backdoors in vision models, our method achieves state-of-the-art detection on BackdoorBench, with an average Defense Effectiveness Rating (DER) of 0.93 across seven attacks and four datasets (next best 0.83). For LLMs, we similarly achieve a significant improvement over baselines for several backdoor types, including on explicitly obfuscated models. Beyond backdoors, our method can detect adversarial and out-of-distribution samples, and distinguishes multiple anomalous mechanisms within a single model. Our results establish functional attribution as an effective, modality-agnostic tool for detecting anomalous behavior in deployed models.
- Abstract(参考訳): ニューラルネットワークのアウトプットの正しさを,地上の真理ラベルを用いて検証することがしばしばあるが,そのアウトプットが正常あるいは異常な内部メカニズムによって生成されたかどうかを確実に判断することはできない。
機械的異常検出(MAD)は、これらのケースにフラグを付けることを目的としているが、既存の手法は、難読化に弱い潜在空間分析に依存するか、特定のアーキテクチャやモダリティに特有のものである。
我々は、MADを機能的帰属問題として再設計し、信頼された集合からのサンプルがモデルの出力をどの程度説明できるかを尋ねる。
我々は、影響関数を用いてこれを運用し、パラメータ空間サンプリングを用いて、テストサンプルと小さな参照セットとの関数的結合を測定する。
我々は複数の異常タイプとモダリティを評価した。
視覚モデルにおけるバックドアでは,バックドアベンチの最先端検出が達成され,攻撃7件とデータセット4件(次は0.83)に対して平均防御効果レーティング(DER)が0.93である。
LLM の場合も同様に,明示的に難解なモデルを含む,いくつかのバックドアタイプに対するベースラインの大幅な改善を実現している。
バックドア以外にも,本手法は逆方向および外方方向のサンプルを検出し,単一モデル内の複数の異常機構を識別することができる。
本研究は,デプロイモデルにおける異常な振る舞いを検出するための,効果的なモダリティに依存しないツールとして,機能的属性を確立した。
関連論文リスト
- Feature-Aware Test Generation for Deep Learning Models [0.5368630420272898]
本研究では,視覚に基づくディープラーニング(DL)モデルのための機能認識型テスト生成フレームワークであるTectを紹介する。
潜在空間内で非絡み合ったセマンティック属性を摂動することで入力を生成する。
行動シフトにつながる特徴を特定し、セマンティック属性に視覚言語モデルを使用する。
論文 参考訳(メタデータ) (2026-01-20T15:41:06Z) - Membership Inference Attack with Partial Features [14.336020797572361]
本研究では,各サンプルの部分的な特徴のみを相手が観察する推論シナリオについて検討する。
MRAD (Memory-Guided Reconstruction and Anomaly Detection) は2段階攻撃フレームワークである。
MRADはさまざまなデータセットで有効であり、市販の異常検出技術との互換性を維持している。
論文 参考訳(メタデータ) (2025-08-08T11:56:13Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Can I trust my anomaly detection system? A case study based on explainable AI [0.4416503115535552]
本稿では,変分自己エンコーダ生成モデルに基づく異常検出システムのロバスト性について検討する。
目標は、再構成の違いを利用する異常検知器の実際の性能について、異なる視点を得ることです。
論文 参考訳(メタデータ) (2024-07-29T12:39:07Z) - Adversarial Examples Detection with Enhanced Image Difference Features
based on Local Histogram Equalization [20.132066800052712]
本稿では,高頻度情報強調戦略に基づく逆例検出フレームワークを提案する。
このフレームワークは、敵の例と通常の例との特徴的差異を効果的に抽出し、増幅することができる。
論文 参考訳(メタデータ) (2023-05-08T03:14:01Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。