Fugu-MT 論文翻訳(概要): Jailbreaking LLM-Controlled Robots

論文の概要: Jailbreaking LLM-Controlled Robots

arxiv url: http://arxiv.org/abs/2410.13691v2
Date: Sat, 09 Nov 2024 20:00:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.008068
Title: Jailbreaking LLM-Controlled Robots
Title（参考訳）: 脱獄型LDM制御ロボット
Authors: Alexander Robey, Zachary Ravichandran, Vijay Kumar, Hamed Hassani, George J. Pappas,
Abstract要約: 大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。 LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。 LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
参考スコア（独自算出の注目度）: 82.04590367171932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent introduction of large language models (LLMs) has revolutionized the field of robotics by enabling contextual reasoning and intuitive human-robot interaction in domains as varied as manipulation, locomotion, and self-driving vehicles. When viewed as a stand-alone technology, LLMs are known to be vulnerable to jailbreaking attacks, wherein malicious prompters elicit harmful text by bypassing LLM safety guardrails. To assess the risks of deploying LLMs in robotics, in this paper, we introduce RoboPAIR, the first algorithm designed to jailbreak LLM-controlled robots. Unlike existing, textual attacks on LLM chatbots, RoboPAIR elicits harmful physical actions from LLM-controlled robots, a phenomenon we experimentally demonstrate in three scenarios: (i) a white-box setting, wherein the attacker has full access to the NVIDIA Dolphins self-driving LLM, (ii) a gray-box setting, wherein the attacker has partial access to a Clearpath Robotics Jackal UGV robot equipped with a GPT-4o planner, and (iii) a black-box setting, wherein the attacker has only query access to the GPT-3.5-integrated Unitree Robotics Go2 robot dog. In each scenario and across three new datasets of harmful robotic actions, we demonstrate that RoboPAIR, as well as several static baselines, finds jailbreaks quickly and effectively, often achieving 100% attack success rates. Our results reveal, for the first time, that the risks of jailbroken LLMs extend far beyond text generation, given the distinct possibility that jailbroken robots could cause physical damage in the real world. Indeed, our results on the Unitree Go2 represent the first successful jailbreak of a deployed commercial robotic system. Addressing this emerging vulnerability is critical for ensuring the safe deployment of LLMs in robotics. Additional media is available at: https://robopair.org
Abstract（参考訳）: 近年の大規模言語モデル(LLM)の導入は、操作、移動、自動運転車などさまざまな領域におけるコンテキスト推論と直感的な人間とロボットの相互作用を可能にすることで、ロボット工学の分野に革命をもたらした。スタンドアローン技術と見なすと、LLMは脱獄攻撃に弱いことが知られており、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを引き出す。本稿では,LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。既存のLLMチャットボットに対するテキストによる攻撃とは異なり、RoboPAIRはLLMが制御するロボットから有害な物理的行動を誘発する。 i) 攻撃者がNVIDIA Dolphins自動運転LLMにフルアクセス可能なホワイトボックス設定。二攻撃者がGPT-4oプランナーを備えたクリアパスロボティクスジャカルUGVロボットに部分的にアクセスするグレーボックスの設定三)ブラックボックスの設定で、攻撃者はGPT-3.5に統合されたUnitree Robotics Go2ロボット犬にしかアクセスできない。各シナリオと、有害なロボット行動の3つの新しいデータセットにおいて、RoboPAIRは、いくつかの静的ベースラインと同様に、ジェイルブレイクを迅速かつ効果的に発見し、多くの場合、100%の攻撃成功率を達成することを示した。私たちの研究結果によると、脱獄ロボットが現実世界で物理的に損傷を与える可能性を考えると、脱獄ロボットのリスクは、テキスト生成以上のものになっていることが初めて明らかになりました。実際、Unitree Go2の成果は、デプロイされた商用ロボットシステムのジェイルブレイクが成功した最初の例です。この新たな脆弱性に対処することは、ロボット工学におけるLLMの安全なデプロイを保証する上で重要である。追加のメディアは、https://robopair.orgで入手できる。

関連論文リスト

Adversarial Attacks on Robotic Vision Language Action Models [118.02118618146568]
視覚言語行動モデル(VLA)に対する敵対的攻撃について検討する。我々のアルゴリズムの主な貢献は、完全な制御権限を得るためのLLMジェイルブレイク攻撃の適応と応用である。 LLMのジェイルブレイク文学とは大きく異なるのは、現実世界の攻撃は害の概念と意味的に結びついている必要はないからである。
論文参考訳（メタデータ） (2025-06-03T19:43:58Z)
Safety Guardrails for LLM-Enabled Robots [82.0459036717193]
従来のロボット安全アプローチは、大規模言語モデル(LLM)の新たな脆弱性に対処しない LLM対応ロボットの安全性を確保するための2段ガードレールアーキテクチャであるRoboGuardを提案する。 RoboGuardは、安全プランのパフォーマンスを損なうことなく、安全でないプランの実行を92%から2.5%以下に削減することを示す。
論文参考訳（メタデータ） (2025-03-10T22:01:56Z)
Jailbreaking to Jailbreak [7.462595078160592]
そこで本研究では,ヒトが脱獄訓練されたLDMを脱獄し,自身や他のLDMを脱獄させる,新しいLDM-as-red-teamerアプローチを提案する。私たちの仕事は、レッドチームへの戦略的アプローチを導入し、人間のレッドチームからインスピレーションを得ています。
論文参考訳（メタデータ） (2025-02-09T20:49:16Z)
How Can LLMs and Knowledge Graphs Contribute to Robot Safety? A Few-Shot Learning Approach [8.15784886699733]
大規模言語モデル(LLM)は、ロボットが自然言語命令を理解し実行できるようにすることで、ロボット工学領域を変革している。本稿では,ChatGPTが生成したコードを検証した安全層について概説する。
論文参考訳（メタデータ） (2024-12-16T02:28:34Z)
TrojanRobot: Backdoor Attacks Against Robotic Manipulation in the Physical World [22.313765935846046]
本稿では,ロボット操作に特化したバックドアアタックを提案し,物理世界で初めてバックドアアタックを実装した。バックドア視覚言語モデルをロボットシステム内の視覚知覚モジュールに組み込むことで,ロボットアームの動作を物理的に誤解させることに成功した。
論文参考訳（メタデータ） (2024-11-18T16:09:26Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。 RoboPromptは、シミュレーションおよび実世界の設定において、ゼロショットとICLベースラインよりもパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-10-16T17:56:49Z)
h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
BadRobot: Manipulating Embodied LLMs in the Physical World [20.96351292684658]
Embodied AIは、AIが物理的な実体に統合され、周囲を知覚し、相互作用することができるシステムを表す。強力な言語理解能力を示すLarge Language Model(LLM)は、組み込みAIに広く採用されている。我々は,従来の音声ベースのユーザシステムインタラクションを通じて,LLMを安全性や倫理的制約に違反させることを目的とした,新たな攻撃パラダイムであるBadRobotを紹介した。
論文参考訳（メタデータ） (2024-07-16T13:13:16Z)
Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration [4.2460673279562755]
大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しいアプローチを提案する。このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
論文参考訳（メタデータ） (2024-06-20T08:23:49Z)
Physical Backdoor Attack can Jeopardize Driving with Vision-Large-Language Models [53.701148276912406]
Vision-Large-Language-models (VLMs) は自動運転において大きな応用可能性を持っている。 BadVLMDriverは、物理的オブジェクトを使用して実際に起動できる自動運転のためのVLMに対する最初のバックドア攻撃である。 BadVLMDriverは、赤い風船を持った歩行者に突如、加速を誘導する攻撃の成功率を92%達成する。
論文参考訳（メタデータ） (2024-04-19T14:40:38Z)
How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。 PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文参考訳（メタデータ） (2024-01-12T16:13:24Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
Fleet-DAgger: Interactive Robot Fleet Learning with Scalable Human Supervision [72.4735163268491]
ロボットの商業的および産業的な展開は、実行中にリモートの人間のテレオペレーターにフォールバックすることが多い。我々は対話型フリートラーニング(Interactive Fleet Learning, IFL)の設定を定式化し、複数のロボットが対話型クエリを行い、複数の人間スーパーバイザーから学習する。 IFLアルゴリズムのファミリーであるFleet-DAggerを提案し、新しいFleet-DAggerアルゴリズムをシミュレーションで4つのベースラインと比較する。
論文参考訳（メタデータ） (2022-06-29T01:23:57Z)
RoboMal: Malware Detection for Robot Network Systems [4.357338639836869]
本稿では,バイナリ実行ファイル上で静的なマルウェア検出を行うRoboMalフレームワークを提案する。このフレームワークは、GRU、CNN、ANNといった広く使われている教師付き学習モデルと比較される。特に、LSTMベースのRoboMalモデルは、10倍のクロスバリデーションで85%の精度と87%の精度で他のモデルより優れている。
論文参考訳（メタデータ） (2022-01-20T22:11:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。