論文の概要: Jailbreaking LLM-Controlled Robots
- arxiv url: http://arxiv.org/abs/2410.13691v2
- Date: Sat, 09 Nov 2024 20:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:03:52.583025
- Title: Jailbreaking LLM-Controlled Robots
- Title(参考訳): 脱獄型LDM制御ロボット
- Authors: Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas,
- Abstract要約: 大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。
LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。
LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
- 参考スコア(独自算出の注目度): 82.04590367171932
- License:
- Abstract: The recent introduction of large language models (LLMs) has revolutionized the field of robotics by enabling contextual reasoning and intuitive human-robot interaction in domains as varied as manipulation, locomotion, and self-driving vehicles. When viewed as a stand-alone technology, LLMs are known to be vulnerable to jailbreaking attacks, wherein malicious prompters elicit harmful text by bypassing LLM safety guardrails. To assess the risks of deploying LLMs in robotics, in this paper, we introduce RoboPAIR, the first algorithm designed to jailbreak LLM-controlled robots. Unlike existing, textual attacks on LLM chatbots, RoboPAIR elicits harmful physical actions from LLM-controlled robots, a phenomenon we experimentally demonstrate in three scenarios: (i) a white-box setting, wherein the attacker has full access to the NVIDIA Dolphins self-driving LLM, (ii) a gray-box setting, wherein the attacker has partial access to a Clearpath Robotics Jackal UGV robot equipped with a GPT-4o planner, and (iii) a black-box setting, wherein the attacker has only query access to the GPT-3.5-integrated Unitree Robotics Go2 robot dog. In each scenario and across three new datasets of harmful robotic actions, we demonstrate that RoboPAIR, as well as several static baselines, finds jailbreaks quickly and effectively, often achieving 100% attack success rates. Our results reveal, for the first time, that the risks of jailbroken LLMs extend far beyond text generation, given the distinct possibility that jailbroken robots could cause physical damage in the real world. Indeed, our results on the Unitree Go2 represent the first successful jailbreak of a deployed commercial robotic system. Addressing this emerging vulnerability is critical for ensuring the safe deployment of LLMs in robotics. Additional media is available at: https://robopair.org
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の導入は、操作、移動、自動運転車などさまざまな領域におけるコンテキスト推論と直感的な人間とロボットの相互作用を可能にすることで、ロボット工学の分野に革命をもたらした。
スタンドアローン技術と見なすと、LLMは脱獄攻撃に弱いことが知られており、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを引き出す。
本稿では,LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
既存のLLMチャットボットに対するテキストによる攻撃とは異なり、RoboPAIRはLLMが制御するロボットから有害な物理的行動を誘発する。
i) 攻撃者がNVIDIA Dolphins自動運転LLMにフルアクセス可能なホワイトボックス設定。
二 攻撃者がGPT-4oプランナーを備えたクリアパスロボティクスジャカルUGVロボットに部分的にアクセスするグレーボックスの設定
三)ブラックボックスの設定で、攻撃者はGPT-3.5に統合されたUnitree Robotics Go2ロボット犬にしかアクセスできない。
各シナリオと、有害なロボット行動の3つの新しいデータセットにおいて、RoboPAIRは、いくつかの静的ベースラインと同様に、ジェイルブレイクを迅速かつ効果的に発見し、多くの場合、100%の攻撃成功率を達成することを示した。
私たちの研究結果によると、脱獄ロボットが現実世界で物理的に損傷を与える可能性を考えると、脱獄ロボットのリスクは、テキスト生成以上のものになっていることが初めて明らかになりました。
実際、Unitree Go2の成果は、デプロイされた商用ロボットシステムのジェイルブレイクが成功した最初の例です。
この新たな脆弱性に対処することは、ロボット工学におけるLLMの安全なデプロイを保証する上で重要である。
追加のメディアは、https://robopair.orgで入手できる。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - BadRobot: Manipulating Embodied LLMs in the Physical World [20.96351292684658]
Embodied AIは、AIが物理的な実体に統合され、周囲を知覚し、相互作用することができるシステムを表す。
強力な言語理解能力を示すLarge Language Model(LLM)は、組み込みAIに広く採用されている。
我々は,従来の音声ベースのユーザシステムインタラクションを通じて,LLMを安全性や倫理的制約に違反させることを目的とした,新たな攻撃パラダイムであるBadRobotを紹介した。
論文 参考訳(メタデータ) (2024-07-16T13:13:16Z) - Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration [4.2460673279562755]
大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。
本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しいアプローチを提案する。
このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
論文 参考訳(メタデータ) (2024-06-20T08:23:49Z) - Physical Backdoor Attack can Jeopardize Driving with Vision-Large-Language Models [53.701148276912406]
Vision-Large-Language-models (VLMs) は自動運転において大きな応用可能性を持っている。
BadVLMDriverは、物理的オブジェクトを使用して実際に起動できる自動運転のためのVLMに対する最初のバックドア攻撃である。
BadVLMDriverは、赤い風船を持った歩行者に突如、加速を誘導する攻撃の成功率を92%達成する。
論文 参考訳(メタデータ) (2024-04-19T14:40:38Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - Fleet-DAgger: Interactive Robot Fleet Learning with Scalable Human
Supervision [72.4735163268491]
ロボットの商業的および産業的な展開は、実行中にリモートの人間のテレオペレーターにフォールバックすることが多い。
我々は対話型フリートラーニング(Interactive Fleet Learning, IFL)の設定を定式化し、複数のロボットが対話型クエリを行い、複数の人間スーパーバイザーから学習する。
IFLアルゴリズムのファミリーであるFleet-DAggerを提案し、新しいFleet-DAggerアルゴリズムをシミュレーションで4つのベースラインと比較する。
論文 参考訳(メタデータ) (2022-06-29T01:23:57Z) - RoboMal: Malware Detection for Robot Network Systems [4.357338639836869]
本稿では,バイナリ実行ファイル上で静的なマルウェア検出を行うRoboMalフレームワークを提案する。
このフレームワークは、GRU、CNN、ANNといった広く使われている教師付き学習モデルと比較される。
特に、LSTMベースのRoboMalモデルは、10倍のクロスバリデーションで85%の精度と87%の精度で他のモデルより優れている。
論文 参考訳(メタデータ) (2022-01-20T22:11:38Z) - Fault-Aware Robust Control via Adversarial Reinforcement Learning [35.16413579212691]
本稿では, 関節損傷症例に対するロボットの脆弱性を大幅に向上させる, 対向強化学習フレームワークを提案する。
我々は,本アルゴリズムを3本指ロボットと4本指ロボットで検証する。
我々のアルゴリズムはシミュレーションでのみ訓練でき、微調整なしで実際のロボットに直接展開できる。
論文 参考訳(メタデータ) (2020-11-17T16:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。