論文の概要: BadRobot: Jailbreaking LLM-based Embodied AI in the Physical World
- arxiv url: http://arxiv.org/abs/2407.20242v1
- Date: Tue, 16 Jul 2024 13:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 00:56:24.446012
- Title: BadRobot: Jailbreaking LLM-based Embodied AI in the Physical World
- Title(参考訳): BadRobot:物理世界でLLMベースの体操AIをジェイルブレイク
- Authors: Hangtao Zhang, Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Shengshan Hu, Leo Yu Zhang,
- Abstract要約: 人工人工知能(英語: Embodied AI, AI)は、センサーやアクチュエータを通して物理世界と対話する人工知能システムである。
大規模言語モデル(LLM)は言語命令を深く探求し、複雑なタスクの計画策定において重要な役割を担います。
LLMベースのエンボディAIロボットは広く普及し、家庭や産業で一般的になると予想されている。
- 参考スコア(独自算出の注目度): 14.238184348904802
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Embodied artificial intelligence (AI) represents an artificial intelligence system that interacts with the physical world through sensors and actuators, seamlessly integrating perception and action. This design enables AI to learn from and operate within complex, real-world environments. Large Language Models (LLMs) deeply explore language instructions, playing a crucial role in devising plans for complex tasks. Consequently, they have progressively shown immense potential in empowering embodied AI, with LLM-based embodied AI emerging as a focal point of research within the community. It is foreseeable that, over the next decade, LLM-based embodied AI robots are expected to proliferate widely, becoming commonplace in homes and industries. However, a critical safety issue that has long been hiding in plain sight is: could LLM-based embodied AI perpetrate harmful behaviors? Our research investigates for the first time how to induce threatening actions in embodied AI, confirming the severe risks posed by these soon-to-be-marketed robots, which starkly contravene Asimov's Three Laws of Robotics and threaten human safety. Specifically, we formulate the concept of embodied AI jailbreaking and expose three critical security vulnerabilities: first, jailbreaking robotics through compromised LLM; second, safety misalignment between action and language spaces; and third, deceptive prompts leading to unaware hazardous behaviors. We also analyze potential mitigation measures and advocate for community awareness regarding the safety of embodied AI applications in the physical world.
- Abstract(参考訳): 人工知能(AI)は、センサーやアクチュエータを通じて物理的な世界と相互作用し、知覚と行動をシームレスに統合する人工知能システムである。
この設計により、AIは複雑な現実世界の環境から学び、操作することができる。
大規模言語モデル(LLM)は言語命令を深く探求し、複雑なタスクの計画策定において重要な役割を担います。
その結果、LLMベースのインボディードAIがコミュニティ内の研究の焦点として現れ、エンボディードAIを増強する大きな可能性を徐々に示してきた。
今後10年間で、LLMベースのエンボディAIロボットが広く普及し、家庭や産業で一般的なものになるだろうと予測されている。
LLMベースのインボディードAIは有害な振る舞いを迫害するだろうか?
アシモフの『3つのロボット法則』に逆らって人間の安全を脅かすこのロボットがもたらす深刻なリスクを、我々の研究は初めて確認した。
具体的には、AIのジェイルブレイクを具体化して、3つの重大なセキュリティ上の脆弱性を露呈する。
我々はまた、潜在的な緩和策を分析し、実世界における具体化されたAIアプリケーションの安全性に関するコミュニティの認識を提唱する。
関連論文リスト
- Jailbreaking LLM-Controlled Robots [82.04590367171932]
大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。
LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。
LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
論文 参考訳(メタデータ) (2024-10-17T15:55:36Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions [3.1247504290622214]
研究は、大規模言語モデルが現実世界のロボット実験や応用において差別的な結果や安全でない行動をもたらす可能性を懸念している。
高い評価を受けたLLMの識別基準と安全性基準のHRIに基づく評価を行う。
結果から, 組織的, 定期的, 包括的リスクアセスメントと, 成果改善のための保証の必要性が浮き彫りとなった。
論文 参考訳(メタデータ) (2024-06-13T05:31:49Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。
GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文 参考訳(メタデータ) (2024-04-09T18:29:42Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Plug in the Safety Chip: Enforcing Constraints for LLM-driven Robot
Agents [25.62431723307089]
線形時間論理(LTL)に基づく問合せ型安全制約モジュールを提案する。
我々のシステムは、安全上の制約を厳格に遵守し、複雑な安全上の制約とうまく対応し、実用性の可能性を強調します。
論文 参考訳(メタデータ) (2023-09-18T16:33:30Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。
セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文 参考訳(メタデータ) (2020-08-01T18:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。