Fugu-MT 論文翻訳(概要): BadRobot: Manipulating Embodied LLMs in the Physical World

論文の概要: BadRobot: Manipulating Embodied LLMs in the Physical World

arxiv url: http://arxiv.org/abs/2407.20242v3
Date: Thu, 3 Oct 2024 14:31:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 14:05:01.107815
Title: BadRobot: Manipulating Embodied LLMs in the Physical World
Title（参考訳）: BadRobot:物理世界での身体的LLMの操作
Authors: Hangtao Zhang, Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Changgan Yin, Minghui Li, Lulu Xue, Yichen Wang, Shengshan Hu, Aishan Liu, Peijin Guo, Leo Yu Zhang,
Abstract要約: Embodied AIは、AIが物理的な実体に統合され、周囲を知覚し、相互作用することができるシステムを表す。強力な言語理解能力を示すLarge Language Model(LLM)は、組み込みAIに広く採用されている。我々は,従来の音声ベースのユーザシステムインタラクションを通じて,LLMを安全性や倫理的制約に違反させることを目的とした,新たな攻撃パラダイムであるBadRobotを紹介した。
参考スコア（独自算出の注目度）: 20.96351292684658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embodied AI represents systems where AI is integrated into physical entities, enabling them to perceive and interact with their surroundings. Large Language Model (LLM), which exhibits powerful language understanding abilities, has been extensively employed in embodied AI by facilitating sophisticated task planning. However, a critical safety issue remains overlooked: could these embodied LLMs perpetrate harmful behaviors? In response, we introduce BadRobot, a novel attack paradigm aiming to make embodied LLMs violate safety and ethical constraints through typical voice-based user-system interactions. Specifically, three vulnerabilities are exploited to achieve this type of attack: (i) manipulation of LLMs within robotic systems, (ii) misalignment between linguistic outputs and physical actions, and (iii) unintentional hazardous behaviors caused by world knowledge's flaws. Furthermore, we construct a benchmark of various malicious physical action queries to evaluate BadRobot's attack performance. Based on this benchmark, extensive experiments against existing prominent embodied LLM frameworks (e.g., Voxposer, Code as Policies, and ProgPrompt) demonstrate the effectiveness of our BadRobot. Warning: This paper contains harmful AI-generated language and aggressive actions.
Abstract（参考訳）: Embodied AIは、AIが物理的な実体に統合され、周囲を知覚し、相互作用することができるシステムを表す。強力な言語理解能力を示すLarge Language Model(LLM)は、高度なタスク計画を容易にすることで、AIの具体化に広く採用されている。しかし、重大な安全性の問題はまだ見過ごされていない。そこで我々は,BadRobotを紹介した。BadRobotは,一般的な音声ベースのユーザシステムインタラクションを通じて,LLMを安全・倫理的制約に違反させることを目的とした,新たな攻撃パラダイムである。具体的には、この種の攻撃を達成するために、3つの脆弱性が悪用される。一ロボットシステム内におけるLLMの操作二言語出力と身体行動の相違、及び三世界の知識の欠陥による意図しない有害な行動さらに,BadRobotの攻撃性能を評価するために,悪質な物理行動クエリのベンチマークを構築した。このベンチマークに基づいて、既存の著名なLLMフレームワーク(Voxposer、Code as Policies、ProgPromptなど)に対する広範な実験が、BadRobotの有効性を実証しています。警告: この論文は有害なAI生成言語とアグレッシブアクションを含んでいる。

関連論文リスト

Safety Not Found (404): Hidden Risks of LLM-Based Robotics Decision Making [12.400383981686801]
安全クリティカルな環境でのAIシステムによる1つの間違いは、命がかかる可能性がある。大きな言語モデル(LLM)がロボットの意思決定に不可欠なものになると、リスクの物理的次元が大きくなる。本稿では,軽微な誤りであっても破滅的なシナリオにおいて,LCMの性能を体系的に評価する緊急的必要性について論じる。
論文参考訳（メタデータ） (2026-01-09T05:04:15Z)
From Promise to Peril: Rethinking Cybersecurity Red and Blue Teaming in the Age of LLMs [5.438441265064793]
大規模言語モデル(LLM)は、赤と青のチーム操作を増強することでサイバーセキュリティを再構築する。このポジションペーパーは、MITRE ATT&CKやNIST Cybersecurity Framework (CSF)のようなサイバーセキュリティフレームワークにまたがってLLMアプリケーションをマッピングする。主な制限は幻覚、文脈保持の制限、推論の低さ、プロンプトに対する感受性である。我々は,人間のループ監視の維持,モデル説明可能性の向上,プライバシ保護機構の統合,敵対的搾取に頑健なシステムの構築を推奨する。
論文参考訳（メタデータ） (2025-06-16T12:52:19Z)
Adversarial Attacks on Robotic Vision Language Action Models [118.02118618146568]
視覚言語行動モデル(VLA)に対する敵対的攻撃について検討する。我々のアルゴリズムの主な貢献は、完全な制御権限を得るためのLLMジェイルブレイク攻撃の適応と応用である。 LLMのジェイルブレイク文学とは大きく異なるのは、現実世界の攻撃は害の概念と意味的に結びついている必要はないからである。
論文参考訳（メタデータ） (2025-06-03T19:43:58Z)
Safety Guardrails for LLM-Enabled Robots [82.0459036717193]
従来のロボット安全アプローチは、大規模言語モデル(LLM)の新たな脆弱性に対処しない LLM対応ロボットの安全性を確保するための2段ガードレールアーキテクチャであるRoboGuardを提案する。 RoboGuardは、安全プランのパフォーマンスを損なうことなく、安全でないプランの実行を92%から2.5%以下に削減することを示す。
論文参考訳（メタデータ） (2025-03-10T22:01:56Z)
POEX: Towards Policy Executable Jailbreak Attacks Against the LLM-based Robots [12.356183647226306]
本稿では,LLM型ロボットに対するジェイルブレイク攻撃の実現可能性と理性について検討する。より徹底的なセキュリティ分析を可能にするため、POEX(Policy Executable)ジェイルブレイクを導入する。実世界のロボットシステムおよびシミュレーション実験は、POEXの有効性を実証した。
論文参考訳（メタデータ） (2024-12-21T13:58:27Z)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文参考訳（メタデータ） (2024-12-20T21:43:52Z)
Jailbreaking LLM-Controlled Robots [82.04590367171932]
大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。 LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。 LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
論文参考訳（メタデータ） (2024-10-17T15:55:36Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions [3.1247504290622214]
研究は、大規模言語モデルが現実世界のロボット実験や応用において差別的な結果や安全でない行動をもたらす可能性を懸念している。高い評価を受けたLLMの識別基準と安全性基準のHRIに基づく評価を行う。結果から, 組織的, 定期的, 包括的リスクアセスメントと, 成果改善のための保証の必要性が浮き彫りとなった。
論文参考訳（メタデータ） (2024-06-13T05:31:49Z)
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。 LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文参考訳（メタデータ） (2024-05-27T17:59:43Z)
Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-17T03:06:32Z)
Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。 GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文参考訳（メタデータ） (2024-04-09T18:29:42Z)
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文参考訳（メタデータ） (2024-02-20T23:08:21Z)
Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity [0.659529078336196]
大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、高レベルの行動を戦略的に計画することを可能にする。 LLMの幻覚は、ロボットがユーザー目標と不一致の計画を実行したり、クリティカルなシナリオでは安全でないりする可能性がある。本稿では,LLMの不確かさとタスク固有のあいまいさを一致させる系統的手法であるイントロスペクティブプランニングを提案する。
論文参考訳（メタデータ） (2024-02-09T16:40:59Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Plug in the Safety Chip: Enforcing Constraints for LLM-driven Robot Agents [25.62431723307089]
線形時間論理(LTL)に基づく問合せ型安全制約モジュールを提案する。我々のシステムは、安全上の制約を厳格に遵守し、複雑な安全上の制約とうまく対応し、実用性の可能性を強調します。
論文参考訳（メタデータ） (2023-09-18T16:33:30Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)
Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文参考訳（メタデータ） (2020-08-01T18:22:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。