論文の概要: Attention-Guided Patch-Wise Sparse Adversarial Attacks on Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.21663v1
- Date: Wed, 26 Nov 2025 18:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.248789
- Title: Attention-Guided Patch-Wise Sparse Adversarial Attacks on Vision-Language-Action Models
- Title(参考訳): ビジョン・ランゲージ・アクションモデルにおける注意誘導型パッチワイズスパースアタック
- Authors: Naifu Zhang, Wei Tao, Xi Xiao, Qianpu Sun, Yuxin Zheng, Wentao Mo, Peiqiang Wang, Nan Zhang,
- Abstract要約: ADVLAは、視覚エンコーダからテキスト機能空間に投影される特徴に対して、敵対的な摂動を適用するフレームワークである。
シングルステップのイテレーションはわずか0.06秒で、従来のパッチベースの攻撃よりも大幅に向上する。
- 参考スコア(独自算出の注目度): 20.36843507452372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Vision-Language-Action (VLA) models in embodied intelligence have developed rapidly. However, existing adversarial attack methods require costly end-to-end training and often generate noticeable perturbation patches. To address these limitations, we propose ADVLA, a framework that directly applies adversarial perturbations on features projected from the visual encoder into the textual feature space. ADVLA efficiently disrupts downstream action predictions under low-amplitude constraints, and attention guidance allows the perturbations to be both focused and sparse. We introduce three strategies that enhance sensitivity, enforce sparsity, and concentrate perturbations. Experiments demonstrate that under an $L_{\infty}=4/255$ constraint, ADVLA combined with Top-K masking modifies less than 10% of the patches while achieving an attack success rate of nearly 100%. The perturbations are concentrated on critical regions, remain almost imperceptible in the overall image, and a single-step iteration takes only about 0.06 seconds, significantly outperforming conventional patch-based attacks. In summary, ADVLA effectively weakens downstream action predictions of VLA models under low-amplitude and locally sparse conditions, avoiding the high training costs and conspicuous perturbations of traditional patch attacks, and demonstrates unique effectiveness and practical value for attacking VLA feature spaces.
- Abstract(参考訳): 近年,インボディード・インテリジェンスにおけるビジョン・ランゲージ・アクション(VLA)モデルの開発が急速に進んでいる。
しかし、既存の敵攻撃法では、エンドツーエンドの訓練が必要であり、しばしば顕著な摂動パッチを生成する。
これらの制約に対処するため,視覚エンコーダからテキスト機能空間に投影される特徴に対して,直接逆の摂動を適用するADVLAを提案する。
ADVLAは低振幅制約下での下流動作予測を効果的に破壊し、注意誘導により摂動を集中とスパースの両方にすることができる。
感度を高め、空間性を強制し、摂動を集中する3つの戦略を導入する。
L_{\infty}=4/255$の制約の下で、ADVLAとTop-Kマスクを組み合わせると、パッチの10%未満が修正され、攻撃成功率は100%近くになる。
摂動は臨界領域に集中しており、全体像においてほとんど知覚できないままであり、シングルステップの反復はわずか0.06秒で、従来のパッチベースの攻撃よりも大幅に上回っている。
要約すると、ADVLAは低振幅および局所スパース条件下でのVLAモデルの下流動作予測を効果的に弱め、従来のパッチ攻撃の訓練コストと顕著な摂動を回避し、VLA特徴空間を攻撃するためのユニークな有効性と実用的価値を示す。
関連論文リスト
- When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models [81.7618160628979]
VLA(Vision-Language-Action)モデルは敵の攻撃に弱いが、普遍的かつ移動可能な攻撃は未発見のままである。
UPA-RFAS(Universal Patch Attack via Robust Feature, Attention, and Semantics)は、単一の物理的パッチを共有機能空間で学習する統合フレームワークである。
多様なVLAモデル、操作スイート、物理実行の実験は、UPA-RFASがモデル、タスク、視点を一貫して移行していることを示している。
論文 参考訳(メタデータ) (2025-11-26T09:16:32Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - Diffusion Guided Adversarial State Perturbations in Reinforcement Learning [33.206020320762576]
強化学習システムは敵の攻撃に弱い。
政策に依存しない拡散型状態摂動攻撃である ShiFT を提案する。
我々の攻撃は、検出を避けるために現実的かつ歴史に整合したまま、真の状態と意味的に異なる状態を生成することができる。
論文 参考訳(メタデータ) (2025-11-10T23:52:21Z) - FrameShield: Adversarially Robust Video Anomaly Detection [16.21127415496373]
Weakly Supervised Video Anomaly Detection (WSVAD)は目覚ましい進歩を遂げているが、既存のモデルは敵攻撃に弱いままであり、信頼性が制限されている。
本研究では、時間的整合性を維持しつつ、通常のビデオの局所化領域に重篤な拡張を加えて合成異常を生成する「時空間歪み(Spatiotemporal Region Distortion, SRD)」と呼ばれる新しい擬似異常生成手法を提案する。
提案手法は,WSVADモデルの敵攻撃に対するロバスト性を大幅に向上させ,複数のベンチマークでAUROC全体のパフォーマンスを平均71.0%向上させる。
論文 参考訳(メタデータ) (2025-10-24T14:59:43Z) - NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation [54.87964060934928]
VLA(Vision-Language-Action)モデルは、現実の展開において重要な障壁に直面している。
本稿では,軌道の狭小化に焦点を絞った新しい手法として,軌道の狭小化(Narrowing of Trajectory)VLAフレームワークを提案する。
NoTVLAは2つのクリティカルな制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。
論文 参考訳(メタデータ) (2025-10-04T18:26:55Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - DAASH: A Meta-Attack Framework for Synthesizing Effective and Stealthy Adversarial Examples [6.174972220087909]
DAASHは完全に差別化可能なメタアタックフレームワークであり、効果的かつ知覚的に整列した敵の例を生成する。
CIFAR-10, CIFAR-100, ImageNetを対象とし, DAASHの評価を行った。
論文 参考訳(メタデータ) (2025-08-18T18:54:20Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。