論文の概要: Not What You Asked For: Typographic Attacks in Household Robot Manipulation
- arxiv url: http://arxiv.org/abs/2605.18593v1
- Date: Mon, 18 May 2026 16:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.999261
- Title: Not What You Asked For: Typographic Attacks in Household Robot Manipulation
- Title(参考訳): 家庭内ロボット操作におけるタイポグラフィー攻撃
- Authors: Ali Iranmanesh, Peng Liu,
- Abstract要約: 本研究は,HomeRobotベンチマークを用いたHabitatに基づくシミュレーションにおいて,タイポグラフィー攻撃を評価する。
本稿では,凍ったCLIPエンコーダを敵ステッカーに公開する非結合型認識アーキテクチャを提案する。
知覚的誤りは持続的な3次元意味マップを通して伝播し、運動的故障を引き起こす。
- 参考スコア(独自算出の注目度): 2.8988874060074163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary embodied AI agents increasingly rely on vision-language models such as CLIP for object perception and task grounding. However, the shared embedding space that enables this flexibility introduces a structural vulnerability to typographic attacks, where printed text in a physical scene semantically overrides visual judgment. While prior work has quantified this threat in static 2D benchmarks and 3D navigation tasks, its impact on the full Sense-Plan-Act pipeline of household robot manipulation remains unexplored. This work evaluates typographic attacks in a Habitat-based simulation using the HomeRobot benchmark. We introduce a decoupled perception architecture that exposes a frozen CLIP encoder to adversarial stickers while maintaining geometric grounding via DETIC. In a controlled evaluation pool of 59 attributable episodes, the attack achieves an overall Attack Success Rate (ASR) of 67.8%, rising to 70.0% among fully successful episodes, under uncontrolled viewing angles and occlusion with no perceptual optimization. Critically, we find that perceptual errors propagate through the persistent 3D semantic map to produce kinetic failures, defined here as physically executed grasping and transport of the wrong object driven by an adversarially poisoned semantic state. In these cases, the robot physically grasps and delivers the wrong object to a target receptacle. These results establish typographic misclassification as a real, measurable, and physically consequential threat to the safety of modular manipulation pipelines that prior typographic attack research has left unexamined.
- Abstract(参考訳): オープンボキャブラリを具現化したAIエージェントは、CLIPのようなビジョン言語モデルに依存して、オブジェクトの認識やタスクグラウンドを行うようになっている。
しかし、この柔軟性を実現する共有埋め込み空間は、物理的な場面で印刷されたテキストが視覚的判断を意味的に上回るような、タイポグラフィー攻撃に構造的脆弱性をもたらす。
これまでの研究は、静的な2Dベンチマークと3Dナビゲーションタスクでこの脅威を定量化してきたが、家庭用ロボット操作のSense-Plan-Actパイプラインへの影響はまだ明らかになっていない。
本研究は,HomeRobotベンチマークを用いたHabitatに基づくシミュレーションにおいて,タイポグラフィー攻撃を評価する。
直交ステッカーに冷凍CLIPエンコーダを露呈し,DeTICによる幾何学的接地を維持しながら,非結合型認識アーキテクチャを導入する。
59エピソードの制御された評価プールにおいて、攻撃は67.8%の総攻撃成功率(ASR)を達成し、完全に成功したエピソードのうち70.0%まで上昇する。
批判的に言えば、知覚的エラーが永続的な3Dセマンティックマップを介して伝播し、ここでは、逆毒のセマンティックステートによって駆動される間違った物体の物理的に実行された把握と輸送として定義される、運動的失敗を生成する。
これらの場合、ロボットは物理的に物体をつかみ、その物体をターゲットの受容器に届ける。
これらの結果は,従来のタイポグラフィ攻撃研究が未検討のまま残したモジュラー操作パイプラインの安全性に対する,真の,測定可能な,物理的に連続した脅威として,タイポグラフィ誤分類を確立している。
関連論文リスト
- From Prompt to Physical Actuation: Holistic Threat Modeling of LLM-Enabled Robotic Systems [0.5161531917413708]
我々は,ロボットサイバーセキュリティ,敵対的知覚攻撃,LLMの安全性が信頼境界を越えてどのように作用し,伝播するかを研究する。
DFDをベースとした脅威分析は、LLM対応ロボットシステムの完全な認識計画アクチュエーターパイプラインに3つの脅威カテゴリを統合した初めてのものである。
論文 参考訳(メタデータ) (2026-04-29T23:44:07Z) - Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object [26.15314358613966]
本研究は,3次元オブジェクトに対する視点整合型テクスチャ最適化手法を提案する。
最適化戦略として、我々はC2F(Coarse-to-Fine)カリキュラムによる変換への期待(EOT)を採用している。
さらに、サリエンシ誘導による摂動を統合して、政策の注意をリダイレクトし、ロボットを敵の物体に向けて継続的に駆動する目標損失を設計する。
論文 参考訳(メタデータ) (2026-03-05T07:57:47Z) - Adversarial Patch Attacks on Vision-Based Cargo Occupancy Estimation via Differentiable 3D Simulation [0.0]
本研究では, 完全にシミュレーションされた3次元環境を用いて, 畳み込み型貨物乗員分類器への攻撃の可能性について検討した。
実験により, 3次元最適化パッチは特にサービス拒否シナリオにおいて, 高い攻撃成功率を達成することが示された。
これは、物理的に現実的で、完全にシミュレートされた3Dシーンにおける、貨物乗員推定のための敵のパッチ攻撃を調査する最初の研究である。
論文 参考訳(メタデータ) (2025-11-24T16:05:40Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Transient Adversarial 3D Projection Attacks on Object Detection in Autonomous Driving [15.516055760190884]
本稿では,自律運転シナリオにおける物体検出を対象とする3Dプロジェクション攻撃を提案する。
本研究は, YOLOv3 と Mask R-CNN の物理環境における攻撃効果を示すものである。
論文 参考訳(メタデータ) (2024-09-25T22:27:11Z) - Defending From Physically-Realizable Adversarial Attacks Through
Internal Over-Activation Analysis [61.68061613161187]
Z-Maskは、敵の攻撃に対する畳み込みネットワークの堅牢性を改善するための堅牢で効果的な戦略である。
提示されたディフェンスは、入力画像中の対向対象に対応する画素を検出し、隠蔽するために、内部ネットワーク機能で実行される特定のZスコア解析に依存する。
追加の実験では、Z-Maskは防衛対応攻撃に対して堅牢であることが示された。
論文 参考訳(メタデータ) (2022-03-14T17:41:46Z) - On the Real-World Adversarial Robustness of Real-Time Semantic
Segmentation Models for Autonomous Driving [59.33715889581687]
現実世界の敵対的な例(通常はパッチの形で)の存在は、安全クリティカルなコンピュータビジョンタスクにおけるディープラーニングモデルの使用に深刻な脅威をもたらす。
本稿では,異なる種類の対立パッチを攻撃した場合のセマンティックセグメンテーションモデルのロバスト性を評価する。
画素の誤分類を誘導する攻撃者の能力を改善するために, 新たな損失関数を提案する。
論文 参考訳(メタデータ) (2022-01-05T22:33:43Z) - Evaluating the Robustness of Semantic Segmentation for Autonomous
Driving against Real-World Adversarial Patch Attacks [62.87459235819762]
自動運転車のような現実のシナリオでは、現実の敵例(RWAE)にもっと注意を払わなければならない。
本稿では,デジタルおよび実世界の敵対パッチの効果を検証し,一般的なSSモデルのロバスト性を詳細に評価する。
論文 参考訳(メタデータ) (2021-08-13T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。