論文の概要: Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs
- arxiv url: http://arxiv.org/abs/2605.07447v1
- Date: Fri, 08 May 2026 08:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.927743
- Title: Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs
- Title(参考訳): VLMにおける逆攻撃検出のためのプラグアンドプレイファイアウォールとしてのスパースオートエンコーダ
- Authors: Hao Wang, Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh, Daisuke Kawahara,
- Abstract要約: スパースオートエンコーダ(SAE)に基づく,新規で軽量な対向攻撃検出フレームワークを提案する。
SAEgisは、ドメイン内、クロスドメイン、クロスアタック設定間で強力なパフォーマンスを達成する。
本手法では, 対人訓練を必要とせず, 最小限のオーバーヘッドを導入し, 実世界のVLMシステムの安全性向上のための実践的アプローチを提供する。
- 参考スコア(独自算出の注目度): 17.291160679945865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have advanced rapidly and are increasingly deployed in real-world applications, especially with the rise of agent-based systems. However, their safety has received relatively limited attention. Even the latest proprietary and open-weight VLMs remain highly vulnerable to adversarial attacks, leaving downstream applications exposed to significant risks. In this work, we propose a novel and lightweight adversarial attack detection framework based on sparse autoencoders (SAEs), termed SAEgis. By inserting an SAE module into a pretrained VLM and training it with standard reconstruction objectives, we find that the learned sparse latent features naturally capture attack-relevant signals. These features enable reliable classification of whether an input image has been adversarially perturbed, even for previously unseen samples. Extensive experiments show that SAEgis achieves strong performance across in-domain, cross-domain, and cross-attack settings, with particularly large improvements in cross-domain generalization compared to existing baselines. In addition, combining signals from multiple layers further improves robustness and stability. To the best of our knowledge, this is the first work to explore SAE as a plug-and-play mechanism for adversarial attack detection in VLMs. Our method requires no additional adversarial training, introduces minimal overhead, and provides a practical approach for improving the safety of real-world VLM systems.
- Abstract(参考訳): 視覚言語モデル(VLM)は急速に進歩し、特にエージェントベースシステムの台頭とともに、現実世界のアプリケーションにますます導入されている。
しかし、その安全性には比較的注意が向けられている。
最新のプロプライエタリでオープンウェイトなVLMでさえ、敵の攻撃に対して非常に脆弱であり、下流のアプリケーションは重大なリスクにさらされている。
本研究では,スパースオートエンコーダ(SAE)をベースとした,新規で軽量な攻撃検出フレームワークSAEgisを提案する。
SAEモジュールを事前訓練されたVLMに挿入し、標準的な再建目標で訓練することにより、学習された疎潜性特徴が自然に攻撃関連信号を捕捉できることが分かる。
これらの特徴は、以前に見つからなかったサンプルであっても、入力画像が逆向きに摂動したかどうかの信頼性の高い分類を可能にする。
大規模な実験により、SAEgisはドメイン内、クロスドメイン、クロスアタック設定で高いパフォーマンスを実現しており、特に既存のベースラインに比べてクロスドメインの一般化が大幅に改善されている。
さらに、複数の層からの信号を組み合わせることで、堅牢性と安定性がさらに向上する。
我々の知る限り、これはVLMにおける敵攻撃検出のためのプラグ・アンド・プレイ機構としてSAEを探求する最初の試みである。
提案手法では,追加の対向訓練を必要とせず,最小限のオーバーヘッドを導入し,実世界のVLMシステムの安全性向上のための実践的アプローチを提供する。
関連論文リスト
- Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction [82.6826848085638]
視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T11:36:56Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - A Defensive Framework Against Adversarial Attacks on Machine Learning-Based Network Intrusion Detection Systems [3.155715652244226]
従来のシグネチャベースのネットワーク侵入検知システム(NIDS)はゼロデイ攻撃に対して不十分である。
従来のシグネチャベースのNIDSは、バイパス検出のためにネットワークトラフィックを微妙に操作する敵の回避攻撃に対して脆弱である。
本稿では,ML ベースの NIDS の堅牢性を高める新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-21T16:22:11Z) - HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States [17.601328965546617]
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。
その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。
HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T17:14:34Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - A Robust Multi-Stage Intrusion Detection System for In-Vehicle Network Security using Hierarchical Federated Learning [0.0]
車両内侵入検知システム(IDS)は、目に見える攻撃を検出し、新しい目に見えない攻撃に対する堅牢な防御を提供する必要がある。
これまでの作業は、CAN ID機能のみに依存していたり、手動で機能抽出する従来の機械学習(ML)アプローチを使用していました。
本稿では,これらの制約に対処するために,最先端,斬新,軽量,車内,IDS平均化,深層学習(DL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-15T21:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。