論文の概要: TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches
- arxiv url: http://arxiv.org/abs/2603.23117v1
- Date: Tue, 24 Mar 2026 12:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.467923
- Title: TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches
- Title(参考訳): TRAP:VLA CoT-Reasoningのハイジャック
- Authors: Zhengxian Huang, Wenjun Zhu, Haoxuan Qiu, Xiaoyu Ji, Wenyuan Xu,
- Abstract要約: CoT(Chain-of-Thought)推論は、ロボット操作において強力な能力を示している。
我々は、CoT推論がターゲット制御ハイジャックのための新しい攻撃ベクトルを導入することを示す。
我々は, CoT-reasoning Vision-Language-Actionモデルに対する最初の対向攻撃フレームワークであるTRAPを提案する。
- 参考スコア(独自算出の注目度): 16.543720979135397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By integrating Chain-of-Thought(CoT) reasoning, Vision-Language-Action (VLA) models have demonstrated strong capabilities in robotic manipulation, particularly by improving generalization and interpretability. However, the security of CoT-based reasoning mechanisms remains largely unexplored. In this paper, we show that CoT reasoning introduces a novel attack vector for targeted control hijacking--for example, causing a robot to mistakenly deliver a knife to a person instead of an apple--without modifying the user's instruction. We first provide empirical evidence that CoT strongly governs action generation, even when it is semantically misaligned with the input instructions. Building on this observation, we propose TRAP, the first targeted adversarial attack framework for CoT-reasoning VLA models. TRAP uses an adversarial patch (e.g., a coaster placed on the table) to corrupt intermediate CoT reasoning and hijack the VLA's output. By optimizing the CoT adversarial loss, TRAP induces specific and adversary-defined behaviors. Extensive evaluations across 3 mainstream VLA architectures and 3 CoT reasoning paradigms validate the effectiveness of TRAP. Notably, we implemented the patch by printing it on paper in a real-world setting. Our findings highlight the urgent need to secure CoT reasoning in VLA systems.
- Abstract(参考訳): CoT(Chain-of-Thought)推論を統合することで、VLA(Vision-Language-Action)モデルは、特に一般化と解釈性の向上によって、ロボット操作において強力な能力を示している。
しかし、CoTベースの推論機構の安全性はほとんど未解明のままである。
本稿では,CoT推論が,例えば,ロボットがリンゴの代わりに誤ってナイフを届けるなど,ユーザの指示を変更することなく,新たな攻撃ベクトルを導入していることを示す。
まず、入力命令と意味的に一致していない場合でも、CoTがアクション生成を強く支配する経験的証拠を提供する。
そこで本研究では,CoT推論型VLAモデルを対象とした最初の対向攻撃フレームワークであるTRAPを提案する。
TRAPは対向パッチ(例えば、テーブル上にコースターを置く)を使用して中間CoT推論を破損させ、VLAの出力をハイジャックする。
CoTの対向損失を最適化することにより、TRAPは特定のおよび対向的に定義された振る舞いを誘導する。
3つの主流VLAアーキテクチャと3つのCoT推論パラダイムにわたる広範囲な評価により、TRAPの有効性が検証された。
特に、実際の環境で紙に印刷することでパッチを実装しました。
以上の結果から,VLAシステムにおけるCoT推論の緊急的必要性が浮き彫りとなった。
関連論文リスト
- DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models [50.07453075750711]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を直接ロボット行動にマッピングする。
近年の取り組みは、行動能力の前に思考でVLAモデルを育むために、Chain-of-Thought (CoT)推論を取り入れている。
並列推論機構を持つVLAモデルの視覚言語的CoT法であるDualCoT-VLAを提案する。
論文 参考訳(メタデータ) (2026-03-23T17:59:25Z) - Altered Thoughts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation [27.2709460237741]
最近のVision-Language-Action(VLA)モデルは、モーターコマンドを復号する前に自然言語プランを生成するために、チェーン・オブ・ソート(CoT)推論を採用する傾向にある。
我々は、この中間計画のどの特性が実際にアクションデコーダに依存しているのかを問う。
我々は,3つの攻撃層(ブラインドノイズ,メカニカルセマンティック,LLM適応)に分類した7つのテキスト破損の分類を設計し,40のテーブルトップ操作タスクにわたる最先端の推論VLAに適用する。
論文 参考訳(メタデータ) (2026-03-13T07:02:51Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models [81.7618160628979]
VLA(Vision-Language-Action)モデルは敵の攻撃に弱いが、普遍的かつ移動可能な攻撃は未発見のままである。
UPA-RFAS(Universal Patch Attack via Robust Feature, Attention, and Semantics)は、単一の物理的パッチを共有機能空間で学習する統合フレームワークである。
多様なVLAモデル、操作スイート、物理実行の実験は、UPA-RFASがモデル、タスク、視点を一貫して移行していることを示している。
論文 参考訳(メタデータ) (2025-11-26T09:16:32Z) - DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models [51.76664843721462]
DeepThinkVLAはVision-Language-Actionモデルのための新しいアーキテクチャである。
因果的注意を伴うシーケンシャルCoTを生成し、双方向の注意に切り替え、アクションベクトルを高速に復号する。
LIBEROベンチマークで97.0%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-31T05:26:16Z) - Adversarial Manipulation of Reasoning Models using Internal Representations [1.308812559547533]
推論モデルは最終的な出力の前にチェーン・オブ・ソート(CoT)トークンを生成する。
モデルが拒否するか否かを予測するCoTトークン生成において,活性化空間における線形方向を同定する。
我々は、CoTトークンのアクティベーションのみに介入することで最終的な出力を制御することができ、この方向をプロンプトベースの攻撃に組み込むことで、成功率を向上させることを示す。
論文 参考訳(メタデータ) (2025-07-03T20:51:32Z) - Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。