論文の概要: The Shawshank Redemption of Embodied AI: Understanding and Benchmarking Indirect Environmental Jailbreaks
- arxiv url: http://arxiv.org/abs/2511.16347v1
- Date: Thu, 20 Nov 2025 13:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.644393
- Title: The Shawshank Redemption of Embodied AI: Understanding and Benchmarking Indirect Environmental Jailbreaks
- Title(参考訳): 身近なAIのショーシャンクの償還:間接的環境ジェイルブレイクの理解とベンチマーク
- Authors: Chunyang Li, Zifeng Kang, Junwei Zhang, Zhuo Ma, Anda Cheng, Xinghua Li, Jianfeng Ma,
- Abstract要約: 我々は,環境に注入された間接的プロンプトを介して,ジェイルブレイクを具現化したAIに対する新たな攻撃を提案する。
私たちの重要な洞察は、具体化されたAIは環境が提供する指示について「2回考えない」ということです。
- 参考スコア(独自算出の注目度): 18.30833049496442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The adoption of Vision-Language Models (VLMs) in embodied AI agents, while being effective, brings safety concerns such as jailbreaking. Prior work have explored the possibility of directly jailbreaking the embodied agents through elaborated multi-modal prompts. However, no prior work has studied or even reported indirect jailbreaks in embodied AI, where a black-box attacker induces a jailbreak without issuing direct prompts to the embodied agent. In this paper, we propose, for the first time, indirect environmental jailbreak (IEJ), a novel attack to jailbreak embodied AI via indirect prompt injected into the environment, such as malicious instructions written on a wall. Our key insight is that embodied AI does not ''think twice'' about the instructions provided by the environment -- a blind trust that attackers can exploit to jailbreak the embodied agent. We further design and implement open-source prototypes of two fully-automated frameworks: SHAWSHANK, the first automatic attack generation framework for the proposed attack IEJ; and SHAWSHANK-FORGE, the first automatic benchmark generation framework for IEJ. Then, using SHAWSHANK-FORGE, we automatically construct SHAWSHANK-BENCH, the first benchmark for indirectly jailbreaking embodied agents. Together, our two frameworks and one benchmark answer the questions of what content can be used for malicious IEJ instructions, where they should be placed, and how IEJ can be systematically evaluated. Evaluation results show that SHAWSHANK outperforms eleven existing methods across 3,957 task-scene combinations and compromises all six tested VLMs. Furthermore, current defenses only partially mitigate our attack, and we have responsibly disclosed our findings to all affected VLM vendors.
- Abstract(参考訳): 具体化されたAIエージェントにおけるビジョンランゲージモデル(VLM)の採用は効果的だが、ジェイルブレイクのような安全上の懸念をもたらす。
以前の研究は、複雑なマルチモーダルプロンプトを通じて、組み込まれたエージェントを直接ジェイルブレイクする可能性を探究してきた。
しかし、インボディードAIにおいて間接的ジェイルブレイクの研究や報告は行われておらず、ブラックボックス攻撃者は、インボディードエージェントに直接のプロンプトを発行することなく、ジェイルブレイクを誘導する。
本稿では, 間接的環境ジェイルブレイク(IEJ)を初めて提案する。これは, 壁面に書かれた悪意のある指示など, 間接的に環境に注入されたプロンプトを介して, ジェイルブレイクを具現化したAIに対する新たな攻撃である。
私たちの重要な洞察は、インボディードAIは環境が提供する指示について「2回も考えない」ということです。
提案した攻撃IEJの最初の自動攻撃生成フレームワークであるSHAWSHANKと、IEJの最初の自動ベンチマーク生成フレームワークであるSHAWSHANK-FORGEである。
そこで, SHAWSHANK-FORGEを用いて, 間接的ジェイルブレイク処理を行う最初のベンチマークであるSHAWSHANK-BENCHを自動構築する。
私たちの2つのフレームワークと1つのベンチマークは、悪意のあるIEJ命令にどんなコンテンツが使えるのか、どこに置かれるべきなのか、IEJを体系的に評価するのか、という疑問に答えています。
評価の結果、SHAWSHANKは3,957のタスクシーンの組み合わせで11の既存手法を上回り、6つの試験されたVLM全てを妥協することがわかった。
さらに、現在の防衛は攻撃を部分的に緩和するだけであり、影響を受けるすべてのVLMベンダーに対して、我々の発見を責任を持って開示しています。
関連論文リスト
- The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention [14.509085965856643]
我々は,大規模言語モデルをジェイルブレイク攻撃から保護する新しい防御手法であるSafeIntervention(SafeInt)を提案する。
SafeIntのコアアイデアは、Jailbreakに関連する表現を拒絶領域に移動させることです。
6件のJailbreak攻撃、2件のJailbreakデータセット、2件のユーティリティベンチマークに関する包括的な実験を行います。
論文 参考訳(メタデータ) (2025-02-21T17:12:35Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。