論文の概要: Altered Thoughts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.12717v1
- Date: Fri, 13 Mar 2026 07:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.955064
- Title: Altered Thoughts, Altered Actions: Probing Chain-of-Thought Vulnerabilities in VLA Robotic Manipulation
- Title(参考訳): 思考の変化,行動の変化:VLAロボットマニピュレーションにおけるチェーン・オブ・ソート・脆弱性の探索
- Authors: Tuan Duong Trinh, Naveed Akhtar, Basim Azam,
- Abstract要約: 最近のVision-Language-Action(VLA)モデルは、モーターコマンドを復号する前に自然言語プランを生成するために、チェーン・オブ・ソート(CoT)推論を採用する傾向にある。
我々は、この中間計画のどの特性が実際にアクションデコーダに依存しているのかを問う。
我々は,3つの攻撃層(ブラインドノイズ,メカニカルセマンティック,LLM適応)に分類した7つのテキスト破損の分類を設計し,40のテーブルトップ操作タスクにわたる最先端の推論VLAに適用する。
- 参考スコア(独自算出の注目度): 27.2709460237741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-Language-Action (VLA) models increasingly adopt chain-of-thought (CoT) reasoning, generating a natural-language plan before decoding motor commands. This internal text channel between the reasoning module and the action decoder has received no adversarial scrutiny. We ask: which properties of this intermediate plan does the action decoder actually rely on, and can targeted corruption of the reasoning trace alone -- with all inputs left intact -- degrade a robot's physical task performance? We design a taxonomy of seven text corruptions organized into three attacker tiers (blind noise, mechanical-semantic, and LLM-adaptive) and apply them to a state-of-the-art reasoning VLA across 40 LIBERO tabletop manipulation tasks. Our results reveal a striking asymmetry: substituting object names in the reasoning trace reduces overall success rate by 8.3~percentage points (pp) -- reaching $-$19.3~pp on goal-conditioned tasks and $-$45~pp on individual tasks -- whereas sentence reordering, spatial-direction reversal, token noise, and even a 70B-parameter LLM crafting plausible-but-wrong plans all have negligible impact (within $\pm$4~pp). This asymmetry indicates that the action decoder depends on entity-reference integrity rather than reasoning quality or sequential structure. Notably, a sophisticated LLM-based attacker underperforms simple mechanical object-name substitution, because preserving plausibility inadvertently retains the entity-grounding structure the decoder needs. A cross-architecture control using a non-reasoning VLA confirms the vulnerability is exclusive to reasoning-augmented models, while instruction-level attacks degrade both architectures -- establishing that the internal reasoning trace is a distinct and stealthy threat vector invisible to input-validation defenses.
- Abstract(参考訳): 最近のVision-Language-Action(VLA)モデルは、モーターコマンドを復号する前に自然言語プランを生成するために、チェーン・オブ・シンク(CoT)推論を採用する傾向にある。
推論モジュールとアクションデコーダとの間の内部テキストチャネルは、敵対的な精査を受けていない。
この中間計画の特徴は、アクションデコーダが実際に依存しているか、そして、すべての入力をそのままにして、推論トレースのみを標的にすることで、ロボットの物理的タスクパフォーマンスを低下させることができるのか?
我々は,3つの攻撃層(ブラインドノイズ,メカニカルセマンティック,LLM適応)に分類した7つのテキスト汚職の分類を設計し,40 LIBERO テーブルトップ操作タスクにおける最先端の推論 VLA に適用する。
目的条件付きタスクで19.3〜ppドル、個別タスクで45〜ppドルに達するのに対して、文の並べ替え、空間方向逆転、トークンノイズ、さらには70BパラメーターのLCMによるプラウチブルブロングプランは、すべて無視できる($\pm$4〜pp)。
この非対称性は、アクションデコーダが、品質やシーケンシャルな構造を推論するよりも、エンティティ参照整合性に依存することを示している。
特に、高度なLLMベースの攻撃者は、デコーダが必要とするエンティティグラウンド構造を不注意に保持するため、単純な機械的オブジェクト名置換を過小評価する。
非推論VLAを用いたクロスアーキテクチャ制御では、脆弱性は推論強化モデルに限られていることが確認され、命令レベルアタックは両方のアーキテクチャを分解する -- 内部の推論トレースが入力バリデーションディフェンスに見えない、独特でステルス的な脅威ベクターであることを確立している。
関連論文リスト
- Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing [16.419761149171215]
本稿では,大規模言語モデルを組み込んだ論理的基盤化フレームワークを提案する。
オブジェクト識別の時点では,対話状態は複数の並列世界へ複製される。
GPT-4o, Gemini-2.5-Flash, Qwen-3-235B を3つのインセンティブレベル(中性, 損失ベース, 存在)で評価した。
論文 参考訳(メタデータ) (2026-03-07T13:21:53Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models [51.76664843721462]
DeepThinkVLAはVision-Language-Actionモデルのための新しいアーキテクチャである。
因果的注意を伴うシーケンシャルCoTを生成し、双方向の注意に切り替え、アクションベクトルを高速に復号する。
LIBEROベンチマークで97.0%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-31T05:26:16Z) - Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models [25.45513133247862]
VLA(Vision-Language-Action)モデルは、ロボット学習において革命的な進歩を遂げている。
この進歩にもかかわらず、その敵意の強固さは未解明のままである。
本稿では,VLAモデルに対する敵パッチ攻撃と対応する防御戦略の両方を提案する。
論文 参考訳(メタデータ) (2025-10-15T07:42:44Z) - Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。
コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。
3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。