論文の概要: BadRobot: Manipulating Embodied LLMs in the Physical World
- arxiv url: http://arxiv.org/abs/2407.20242v3
- Date: Thu, 3 Oct 2024 14:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:05:01.107815
- Title: BadRobot: Manipulating Embodied LLMs in the Physical World
- Title(参考訳): BadRobot:物理世界での身体的LLMの操作
- Authors: Hangtao Zhang, Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Changgan Yin, Minghui Li, Lulu Xue, Yichen Wang, Shengshan Hu, Aishan Liu, Peijin Guo, Leo Yu Zhang,
- Abstract要約: Embodied AIは、AIが物理的な実体に統合され、周囲を知覚し、相互作用することができるシステムを表す。
強力な言語理解能力を示すLarge Language Model(LLM)は、組み込みAIに広く採用されている。
我々は,従来の音声ベースのユーザシステムインタラクションを通じて,LLMを安全性や倫理的制約に違反させることを目的とした,新たな攻撃パラダイムであるBadRobotを紹介した。
- 参考スコア(独自算出の注目度): 20.96351292684658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied AI represents systems where AI is integrated into physical entities, enabling them to perceive and interact with their surroundings. Large Language Model (LLM), which exhibits powerful language understanding abilities, has been extensively employed in embodied AI by facilitating sophisticated task planning. However, a critical safety issue remains overlooked: could these embodied LLMs perpetrate harmful behaviors? In response, we introduce BadRobot, a novel attack paradigm aiming to make embodied LLMs violate safety and ethical constraints through typical voice-based user-system interactions. Specifically, three vulnerabilities are exploited to achieve this type of attack: (i) manipulation of LLMs within robotic systems, (ii) misalignment between linguistic outputs and physical actions, and (iii) unintentional hazardous behaviors caused by world knowledge's flaws. Furthermore, we construct a benchmark of various malicious physical action queries to evaluate BadRobot's attack performance. Based on this benchmark, extensive experiments against existing prominent embodied LLM frameworks (e.g., Voxposer, Code as Policies, and ProgPrompt) demonstrate the effectiveness of our BadRobot. Warning: This paper contains harmful AI-generated language and aggressive actions.
- Abstract(参考訳): Embodied AIは、AIが物理的な実体に統合され、周囲を知覚し、相互作用することができるシステムを表す。
強力な言語理解能力を示すLarge Language Model(LLM)は、高度なタスク計画を容易にすることで、AIの具体化に広く採用されている。
しかし、重大な安全性の問題はまだ見過ごされていない。
そこで我々は,BadRobotを紹介した。BadRobotは,一般的な音声ベースのユーザシステムインタラクションを通じて,LLMを安全・倫理的制約に違反させることを目的とした,新たな攻撃パラダイムである。
具体的には、この種の攻撃を達成するために、3つの脆弱性が悪用される。
一 ロボットシステム内におけるLLMの操作
二 言語出力と身体行動の相違、及び
三 世界の知識の欠陥による意図しない有害な行動
さらに,BadRobotの攻撃性能を評価するために,悪質な物理行動クエリのベンチマークを構築した。
このベンチマークに基づいて、既存の著名なLLMフレームワーク(Voxposer、Code as Policies、ProgPromptなど)に対する広範な実験が、BadRobotの有効性を実証しています。
警告: この論文は有害なAI生成言語とアグレッシブアクションを含んでいる。
関連論文リスト
- Jailbreaking LLM-Controlled Robots [82.04590367171932]
大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。
LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。
LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
論文 参考訳(メタデータ) (2024-10-17T15:55:36Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions [3.1247504290622214]
研究は、大規模言語モデルが現実世界のロボット実験や応用において差別的な結果や安全でない行動をもたらす可能性を懸念している。
高い評価を受けたLLMの識別基準と安全性基準のHRIに基づく評価を行う。
結果から, 組織的, 定期的, 包括的リスクアセスメントと, 成果改善のための保証の必要性が浮き彫りとなった。
論文 参考訳(メタデータ) (2024-06-13T05:31:49Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。
GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文 参考訳(メタデータ) (2024-04-09T18:29:42Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Plug in the Safety Chip: Enforcing Constraints for LLM-driven Robot
Agents [25.62431723307089]
線形時間論理(LTL)に基づく問合せ型安全制約モジュールを提案する。
我々のシステムは、安全上の制約を厳格に遵守し、複雑な安全上の制約とうまく対応し、実用性の可能性を強調します。
論文 参考訳(メタデータ) (2023-09-18T16:33:30Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。
セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文 参考訳(メタデータ) (2020-08-01T18:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。