論文の概要: AtPatch: Debugging Transformers via Hot-Fixing Over-Attention
- arxiv url: http://arxiv.org/abs/2601.21695v1
- Date: Thu, 29 Jan 2026 13:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.846857
- Title: AtPatch: Debugging Transformers via Hot-Fixing Over-Attention
- Title(参考訳): AtPatch: ホットフィクスオーバーアテンションによるトランスフォーマーのデバッグ
- Authors: Shihao Weng, Yang Feng, Jincheng Li, Yining Yin, Xiaofei Xie, Jia Liu,
- Abstract要約: トランスフォーマーベースのディープニューラルネットワーク(DNN)は、バックドア攻撃や不公平さの影響を受け、通常異常な注意パターンを示す。
本研究では,モデル推論中にアテンションマップを動的に再分割するホットフィックス手法であるAtPatchを提案する。
AtPatchは、バックドア攻撃や不公平性を効果的に軽減し、モデルの本来の機能をよりよく保存する。
- 参考スコア(独自算出の注目度): 25.63529551684826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based deep neural networks (DNNs) affected by backdoor attacks and unfairness typically exhibit anomalous attention patterns, leading to over-attend to backdoor triggers or protected attributes. Existing neuron-editing mitigation strategies often struggle to handle such situation and most of them lack flexibility and tend to distort feature representations. Motivated by such over-attention phenomenon and software engineering paradigms such as delta debugging and hot patching, we propose AtPatch, a hot-fix method that dynamically redistributes attention maps during model inference. Specifically, for a given input, AtPatch first extracts the attention map from the model's inference process. Then, it uses a pre-trained detector to identify anomalous columns and replace them with unified benign attention. Then, AtPatch rescales other columns to mitigate the impact of over-attention. Finally, AtPatch returns the redistributed attention map to the model for continued inference. Notably, if the detector does not report any anomalous columns, AtPatch directly returns the original attention map to the model. Unlike existing techniques, AtPatch selectively redistributes the attention map, making it better at preserving the model's original functionality. Furthermore, AtPatch's on-the-fly nature allows it to work without modifying model parameters or retraining, making it better suited for deployed models. We conducted extensive experiments to validate AtPatch. Experimental results show that, compared to existing methods, AtPatch can more effectively mitigate backdoor attacks and unfairness while better preserving the model's original functionality.
- Abstract(参考訳): トランスフォーマーベースのディープニューラルネットワーク(DNN)は、バックドア攻撃や不公平さの影響を受け、通常異常な注意パターンを示す。
既存のニューロン編集の緩和戦略はしばしばそのような状況に対処するのに苦労し、そのほとんどは柔軟性に欠け、特徴表現を歪ませる傾向がある。
このような過度な注意現象やデルタデバッギングやホットパッチといったソフトウェアエンジニアリングパラダイムに触発されて,モデル推論中の注意図を動的に再編集するホットフィックス手法であるAtPatchを提案する。
具体的には、与えられた入力に対して、AtPatchはまずモデルの推論プロセスからアテンションマップを抽出する。
そして、訓練済みの検出器を使って異常な柱を識別し、それらを統一された良心に置き換える。
そして、AtPatchは他のカラムを再スケールして、過剰注意の影響を軽減する。
最後に、AtPatchは継続的な推論のために再配布されたアテンションマップをモデルに返します。
特に、検出器が異常な列を報告しない場合、AtPatchはオリジナルの注意マップを直接モデルに返します。
既存の技術とは異なり、AtPatchはアテンションマップを選択的に再分割し、モデルの本来の機能を保存するのを良くする。
さらに、AtPatchのオンザフライな性質は、モデルパラメータを変更したり、再トレーニングすることなく動作し、デプロイされたモデルに適している。
AtPatchを検証するために広範な実験を行った。
実験結果から、既存の手法と比較して、AtPatchはバックドア攻撃や不公平性を効果的に軽減し、モデルの本来の機能をよりよく保存できることが示された。
関連論文リスト
- PatchBlock: A Lightweight Defense Against Adversarial Patches for Embedded EdgeAI Devices [5.082257334702858]
アドリアックは、EdgeAIアプリケーションにマシンラーニングモデルを確実にデプロイする上で、大きな課題となる。
画像中の逆パッチを検出し中和するフレームワークであるPatchBlockを提案する。
PatchBlockは頑丈さを継続的に改善し、強力なパッチアタックのモデル精度の77%を回復することを示す。
論文 参考訳(メタデータ) (2026-01-01T15:04:16Z) - When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models [81.7618160628979]
VLA(Vision-Language-Action)モデルは敵の攻撃に弱いが、普遍的かつ移動可能な攻撃は未発見のままである。
UPA-RFAS(Universal Patch Attack via Robust Feature, Attention, and Semantics)は、単一の物理的パッチを共有機能空間で学習する統合フレームワークである。
多様なVLAモデル、操作スイート、物理実行の実験は、UPA-RFASがモデル、タスク、視点を一貫して移行していることを示している。
論文 参考訳(メタデータ) (2025-11-26T09:16:32Z) - All Patches Matter, More Patches Better: Enhance AI-Generated Image Detection via Panoptic Patch Learning [45.37237171823581]
AI生成画像(AIGI)の指数的成長は、堅牢で一般化可能な検出方法の緊急の必要性を浮き彫りにしている。
本稿では,系統解析によるAIGI検出の2つの重要な原則を確立する。
論文 参考訳(メタデータ) (2025-04-02T06:32:09Z) - BadPatch: Diffusion-Based Generation of Physical Adversarial Patches [75.35862017536253]
BadPatchは、自然主義的な逆パッチを生成するための新しい拡散ベースのフレームワークである。
本稿では,最初の物理対向TシャツデータセットであるAdvT-shirt-1Kを構築した。
論文 参考訳(メタデータ) (2024-12-02T12:30:35Z) - Patch-wise Auto-Encoder for Visual Anomaly Detection [1.7546477549938133]
本稿では,AEのアノマリーに対する再構成能力を弱めることなく向上することを目的としたパッチワイド自動エンコーダフレームワークを提案する。
本手法は,Mvtec ADベンチマークの最先端性能を向上し,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-01T10:15:15Z) - Query-Efficient Decision-based Black-Box Patch Attack [36.043297146652414]
本稿では,クエリ効率の高い決定ベースのパッチアタックに対して,DevoPatchという微分進化アルゴリズムを提案する。
DevoPatchは、パッチ領域とアタック成功率の点で、最先端のブラックボックスパッチ攻撃を上回っている。
本稿では,ViTの脆弱性評価と画像分類を,初めて決定ベースのパッチアタック設定で実施する。
論文 参考訳(メタデータ) (2023-07-02T05:15:43Z) - PatchGuard++: Efficient Provable Attack Detection against Adversarial
Patches [28.94435153159868]
逆パッチは、制限領域内の画像画素を任意に操作して、モデル誤分類を誘導することができる。
最近の堅牢な防御は、通常、小さな受容フィールドを持つCNNを使用することで、パッチガードフレームワークに従います。
PatchGuardをPatchGuard++に拡張し、敵のパッチ攻撃を確実に検出し、証明可能な堅牢な精度とクリーンな精度を向上します。
論文 参考訳(メタデータ) (2021-04-26T14:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。