Fugu-MT 論文翻訳(概要): BadRobot: Jailbreaking LLM-based Embodied AI in the Physical World

論文の概要: BadRobot: Jailbreaking LLM-based Embodied AI in the Physical World

arxiv url: http://arxiv.org/abs/2407.20242v1
Date: Tue, 16 Jul 2024 13:13:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 00:56:24.446012
Title: BadRobot: Jailbreaking LLM-based Embodied AI in the Physical World
Title（参考訳）: BadRobot:物理世界でLLMベースの体操AIをジェイルブレイク
Authors: Hangtao Zhang, Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Shengshan Hu, Leo Yu Zhang,
Abstract要約: 人工人工知能(英語: Embodied AI, AI)は、センサーやアクチュエータを通して物理世界と対話する人工知能システムである。大規模言語モデル(LLM)は言語命令を深く探求し、複雑なタスクの計画策定において重要な役割を担います。 LLMベースのエンボディAIロボットは広く普及し、家庭や産業で一般的になると予想されている。
参考スコア（独自算出の注目度）: 14.238184348904802
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Embodied artificial intelligence (AI) represents an artificial intelligence system that interacts with the physical world through sensors and actuators, seamlessly integrating perception and action. This design enables AI to learn from and operate within complex, real-world environments. Large Language Models (LLMs) deeply explore language instructions, playing a crucial role in devising plans for complex tasks. Consequently, they have progressively shown immense potential in empowering embodied AI, with LLM-based embodied AI emerging as a focal point of research within the community. It is foreseeable that, over the next decade, LLM-based embodied AI robots are expected to proliferate widely, becoming commonplace in homes and industries. However, a critical safety issue that has long been hiding in plain sight is: could LLM-based embodied AI perpetrate harmful behaviors? Our research investigates for the first time how to induce threatening actions in embodied AI, confirming the severe risks posed by these soon-to-be-marketed robots, which starkly contravene Asimov's Three Laws of Robotics and threaten human safety. Specifically, we formulate the concept of embodied AI jailbreaking and expose three critical security vulnerabilities: first, jailbreaking robotics through compromised LLM; second, safety misalignment between action and language spaces; and third, deceptive prompts leading to unaware hazardous behaviors. We also analyze potential mitigation measures and advocate for community awareness regarding the safety of embodied AI applications in the physical world.
Abstract（参考訳）: 人工知能(AI)は、センサーやアクチュエータを通じて物理的な世界と相互作用し、知覚と行動をシームレスに統合する人工知能システムである。この設計により、AIは複雑な現実世界の環境から学び、操作することができる。大規模言語モデル(LLM)は言語命令を深く探求し、複雑なタスクの計画策定において重要な役割を担います。その結果、LLMベースのインボディードAIがコミュニティ内の研究の焦点として現れ、エンボディードAIを増強する大きな可能性を徐々に示してきた。今後10年間で、LLMベースのエンボディAIロボットが広く普及し、家庭や産業で一般的なものになるだろうと予測されている。 LLMベースのインボディードAIは有害な振る舞いを迫害するだろうか? アシモフの『3つのロボット法則』に逆らって人間の安全を脅かすこのロボットがもたらす深刻なリスクを、我々の研究は初めて確認した。具体的には、AIのジェイルブレイクを具体化して、3つの重大なセキュリティ上の脆弱性を露呈する。我々はまた、潜在的な緩和策を分析し、実世界における具体化されたAIアプリケーションの安全性に関するコミュニティの認識を提唱する。

関連論文リスト

Safety Not Found (404): Hidden Risks of LLM-Based Robotics Decision Making [12.400383981686801]
安全クリティカルな環境でのAIシステムによる1つの間違いは、命がかかる可能性がある。大きな言語モデル(LLM)がロボットの意思決定に不可欠なものになると、リスクの物理的次元が大きくなる。本稿では,軽微な誤りであっても破滅的なシナリオにおいて,LCMの性能を体系的に評価する緊急的必要性について論じる。
論文参考訳（メタデータ） (2026-01-09T05:04:15Z)
From Promise to Peril: Rethinking Cybersecurity Red and Blue Teaming in the Age of LLMs [5.438441265064793]
大規模言語モデル(LLM)は、赤と青のチーム操作を増強することでサイバーセキュリティを再構築する。このポジションペーパーは、MITRE ATT&CKやNIST Cybersecurity Framework (CSF)のようなサイバーセキュリティフレームワークにまたがってLLMアプリケーションをマッピングする。主な制限は幻覚、文脈保持の制限、推論の低さ、プロンプトに対する感受性である。我々は,人間のループ監視の維持,モデル説明可能性の向上,プライバシ保護機構の統合,敵対的搾取に頑健なシステムの構築を推奨する。
論文参考訳（メタデータ） (2025-06-16T12:52:19Z)
Adversarial Attacks on Robotic Vision Language Action Models [118.02118618146568]
視覚言語行動モデル(VLA)に対する敵対的攻撃について検討する。我々のアルゴリズムの主な貢献は、完全な制御権限を得るためのLLMジェイルブレイク攻撃の適応と応用である。 LLMのジェイルブレイク文学とは大きく異なるのは、現実世界の攻撃は害の概念と意味的に結びついている必要はないからである。
論文参考訳（メタデータ） (2025-06-03T19:43:58Z)
Safety Guardrails for LLM-Enabled Robots [82.0459036717193]
従来のロボット安全アプローチは、大規模言語モデル(LLM)の新たな脆弱性に対処しない LLM対応ロボットの安全性を確保するための2段ガードレールアーキテクチャであるRoboGuardを提案する。 RoboGuardは、安全プランのパフォーマンスを損なうことなく、安全でないプランの実行を92%から2.5%以下に削減することを示す。
論文参考訳（メタデータ） (2025-03-10T22:01:56Z)
POEX: Towards Policy Executable Jailbreak Attacks Against the LLM-based Robots [12.356183647226306]
本稿では,LLM型ロボットに対するジェイルブレイク攻撃の実現可能性と理性について検討する。より徹底的なセキュリティ分析を可能にするため、POEX(Policy Executable)ジェイルブレイクを導入する。実世界のロボットシステムおよびシミュレーション実験は、POEXの有効性を実証した。
論文参考訳（メタデータ） (2024-12-21T13:58:27Z)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文参考訳（メタデータ） (2024-12-20T21:43:52Z)
Jailbreaking LLM-Controlled Robots [82.04590367171932]
大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。 LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。 LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
論文参考訳（メタデータ） (2024-10-17T15:55:36Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions [3.1247504290622214]
研究は、大規模言語モデルが現実世界のロボット実験や応用において差別的な結果や安全でない行動をもたらす可能性を懸念している。高い評価を受けたLLMの識別基準と安全性基準のHRIに基づく評価を行う。結果から, 組織的, 定期的, 包括的リスクアセスメントと, 成果改善のための保証の必要性が浮き彫りとなった。
論文参考訳（メタデータ） (2024-06-13T05:31:49Z)
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。 LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文参考訳（メタデータ） (2024-05-27T17:59:43Z)
Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-17T03:06:32Z)
Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。 GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文参考訳（メタデータ） (2024-04-09T18:29:42Z)
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文参考訳（メタデータ） (2024-02-20T23:08:21Z)
Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity [0.659529078336196]
大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、高レベルの行動を戦略的に計画することを可能にする。 LLMの幻覚は、ロボットがユーザー目標と不一致の計画を実行したり、クリティカルなシナリオでは安全でないりする可能性がある。本稿では,LLMの不確かさとタスク固有のあいまいさを一致させる系統的手法であるイントロスペクティブプランニングを提案する。
論文参考訳（メタデータ） (2024-02-09T16:40:59Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Plug in the Safety Chip: Enforcing Constraints for LLM-driven Robot Agents [25.62431723307089]
線形時間論理(LTL)に基づく問合せ型安全制約モジュールを提案する。我々のシステムは、安全上の制約を厳格に遵守し、複雑な安全上の制約とうまく対応し、実用性の可能性を強調します。
論文参考訳（メタデータ） (2023-09-18T16:33:30Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)
Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文参考訳（メタデータ） (2020-08-01T18:22:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。