論文の概要: Jailbreaking Embodied LLMs via Action-level Manipulation
- arxiv url: http://arxiv.org/abs/2603.01414v1
- Date: Mon, 02 Mar 2026 03:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.809873
- Title: Jailbreaking Embodied LLMs via Action-level Manipulation
- Title(参考訳): アクションレベルマニピュレーションによる脱獄型LLMの脱獄
- Authors: Xinyu Huang, Qiang Yang, Leming Shen, Zijing Ma, Yuanqing Zheng,
- Abstract要約: Embodied Large Language Models (LLM) は、AIエージェントが自然言語の指示やアクションを通じて物理世界と対話することを可能にする。
Blindfoldは,実世界のアクションコンテキストにおいて,LLMを組み込んだ限られた因果推論機能を活用する自動攻撃フレームワークである。
BlindfoldはSOTAベースラインよりも最大53%高い攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 17.49724992739061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Large Language Models (LLMs) enable AI agents to interact with the physical world through natural language instructions and actions. However, beyond the language-level risks inherent to LLMs themselves, embodied LLMs with real-world actuation introduce a new vulnerability: instructions that appear semantically benign may still lead to dangerous real-world consequences, revealing a fundamental misalignment between linguistic security and physical outcomes. In this paper, we introduce Blindfold, an automated attack framework that leverages the limited causal reasoning capabilities of embodied LLMs in real-world action contexts. Rather than iterative trial-and-error jailbreaking of black-box embodied LLMs, Blindfold adopts an Adversarial Proxy Planning strategy: it compromises a local surrogate LLM to perform action-level manipulations that appear semantically safe but could result in harmful physical effects when executed. Blindfold further conceals key malicious actions by injecting carefully crafted noise to evade detection by defense mechanisms, and it incorporates a rule-based verifier to improve the attack executability. Evaluations on both embodied AI simulators and a real-world 6DoF robotic arm show that Blindfold achieves up to 53% higher attack success rates than SOTA baselines, highlighting the urgent need to move beyond surface-level language censorship and toward consequence-aware defense mechanisms to secure embodied LLMs.
- Abstract(参考訳): Embodied Large Language Models (LLM) は、AIエージェントが自然言語の指示やアクションを通じて物理世界と対話することを可能にする。
しかし、LLM自体に固有の言語レベルのリスクを超えて、実世界のアクティベーションを具現化したLLMには、新たな脆弱性が導入されている。
本稿では,実世界の行動文脈におけるLLMの因果推論能力を限定的に活用する自動攻撃フレームワークであるBlindfoldを紹介する。
ブラックボックスを具体化したLSMの反復的トライ・アンド・エラージェイルブレイクではなく、BlindfoldはAdversarial Proxy Planning戦略を採用した。
Blindfoldはさらに、防御機構による検出を避けるために、慎重に製造されたノイズを注入することで、重要な悪意のある行動を隠蔽し、攻撃実行性を改善するためにルールベースの検証器を組み込んでいる。
具現化されたAIシミュレータと現実世界の6DoFロボットアームによる評価は、BlindfoldがSOTAベースラインよりも最大53%高い攻撃成功率を達成したことを示している。
関連論文リスト
- From Promise to Peril: Rethinking Cybersecurity Red and Blue Teaming in the Age of LLMs [5.438441265064793]
大規模言語モデル(LLM)は、赤と青のチーム操作を増強することでサイバーセキュリティを再構築する。
このポジションペーパーは、MITRE ATT&CKやNIST Cybersecurity Framework (CSF)のようなサイバーセキュリティフレームワークにまたがってLLMアプリケーションをマッピングする。
主な制限は幻覚、文脈保持の制限、推論の低さ、プロンプトに対する感受性である。
我々は,人間のループ監視の維持,モデル説明可能性の向上,プライバシ保護機構の統合,敵対的搾取に頑健なシステムの構築を推奨する。
論文 参考訳(メタデータ) (2025-06-16T12:52:19Z) - Adversarial Attacks on Robotic Vision Language Action Models [118.02118618146568]
視覚言語行動モデル(VLA)に対する敵対的攻撃について検討する。
我々のアルゴリズムの主な貢献は、完全な制御権限を得るためのLLMジェイルブレイク攻撃の適応と応用である。
LLMのジェイルブレイク文学とは大きく異なるのは、現実世界の攻撃は害の概念と意味的に結びついている必要はないからである。
論文 参考訳(メタデータ) (2025-06-03T19:43:58Z) - XBreaking: Understanding how LLMs security alignment can be broken [3.9140217233340544]
大規模言語モデルは、AIソリューションが支配する現代のIT業界における基本的なアクターである。
本稿では、検閲されたモデルと検閲されていないモデルの振る舞いを比較分析して、ユニークな利用可能なアライメントパターンを導出する説明可能なAIソリューションを提案する。
そこで本稿では,LLMのセキュリティとアライメントの制約をターゲットノイズ注入によって破るために,これらのユニークなパターンを利用する新しい手法であるXBreakingを提案する。
論文 参考訳(メタデータ) (2025-04-30T14:44:24Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - BadRobot: Jailbreaking Embodied LLMs in the Physical World [20.96351292684658]
Embodied AIは、AIが物理的エンティティに統合されるシステムを表す。
大きな言語モデル(LLM)は強力な言語理解能力を示す。
我々は,従来の音声ベースのユーザシステムインタラクションを通じて,LLMを安全性や倫理的制約に違反させることを目的とした,新たな攻撃パラダイムであるBadRobotを紹介した。
論文 参考訳(メタデータ) (2024-07-16T13:13:16Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。