論文の概要: Safety Guardrails for LLM-Enabled Robots
- arxiv url: http://arxiv.org/abs/2503.07885v1
- Date: Mon, 10 Mar 2025 22:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:51.622198
- Title: Safety Guardrails for LLM-Enabled Robots
- Title(参考訳): LLM対応ロボットの安全ガードレール
- Authors: Zachary Ravichandran, Alexander Robey, Vijay Kumar, George J. Pappas, Hamed Hassani,
- Abstract要約: 従来のロボット安全アプローチは、大規模言語モデル(LLM)の新たな脆弱性に対処しない
LLM対応ロボットの安全性を確保するための2段ガードレールアーキテクチャであるRoboGuardを提案する。
RoboGuardは、安全プランのパフォーマンスを損なうことなく、安全でないプランの実行を92%から2.5%以下に削減することを示す。
- 参考スコア(独自算出の注目度): 82.0459036717193
- License:
- Abstract: Although the integration of large language models (LLMs) into robotics has unlocked transformative capabilities, it has also introduced significant safety concerns, ranging from average-case LLM errors (e.g., hallucinations) to adversarial jailbreaking attacks, which can produce harmful robot behavior in real-world settings. Traditional robot safety approaches do not address the novel vulnerabilities of LLMs, and current LLM safety guardrails overlook the physical risks posed by robots operating in dynamic real-world environments. In this paper, we propose RoboGuard, a two-stage guardrail architecture to ensure the safety of LLM-enabled robots. RoboGuard first contextualizes pre-defined safety rules by grounding them in the robot's environment using a root-of-trust LLM, which employs chain-of-thought (CoT) reasoning to generate rigorous safety specifications, such as temporal logic constraints. RoboGuard then resolves potential conflicts between these contextual safety specifications and a possibly unsafe plan using temporal logic control synthesis, which ensures safety compliance while minimally violating user preferences. Through extensive simulation and real-world experiments that consider worst-case jailbreaking attacks, we demonstrate that RoboGuard reduces the execution of unsafe plans from 92% to below 2.5% without compromising performance on safe plans. We also demonstrate that RoboGuard is resource-efficient, robust against adaptive attacks, and significantly enhanced by enabling its root-of-trust LLM to perform CoT reasoning. These results underscore the potential of RoboGuard to mitigate the safety risks and enhance the reliability of LLM-enabled robots.
- Abstract(参考訳): ロボット工学への大型言語モデル(LLM)の統合は、トランスフォーメーション機能を開放しているが、現実の環境で有害なロボットの振る舞いを発生させる敵対的ジェイルブレイク攻撃(例えば幻覚など)への平均ケースLLMエラー(英語版)など、重大な安全性上の懸念ももたらしている。
従来のロボット安全アプローチは、LLMの新たな脆弱性に対処せず、現在のLLM安全ガードレールは、ダイナミックな現実世界環境で動作しているロボットによって引き起こされる物理的リスクを見落としている。
本稿では,LLM対応ロボットの安全性を確保するための2段ガードレールアーキテクチャであるRoboGuardを提案する。
RoboGuardはまず、ルート・オブ・トラスト(英語版) (CoT) 推論を用いて時間論理制約などの厳密な安全仕様を生成するルート・オブ・トラスト (root-of-trust) LLMを用いて、ロボットの環境にそれらを接地することで、定義済みの安全ルールを文脈的に定義する。
そしてRoboGuardは、これらのコンテキストセーフティ仕様と、時間論理制御合成を使用した潜在的に安全でない計画の潜在的な矛盾を解決し、ユーザの好みを最小限に違反しながら、安全コンプライアンスを保証する。
最悪の場合の脱獄攻撃を考慮に入れた大規模なシミュレーションや実世界の実験を通じて、RoboGuardは安全でない計画の実行を92%から2.5%以下に減らし、安全な計画のパフォーマンスを損なうことなく行えることを示した。
また,RoboGuardはリソース効率が高く,アダプティブアタックに対して堅牢であり,そのルート・オブ・トラストLLMによるCoT推論の実現によって著しく向上していることを示す。
これらの結果は、安全リスクを軽減し、LLM対応ロボットの信頼性を高めるRoboGuardの可能性を浮き彫りにした。
関連論文リスト
- Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - Jailbreaking LLM-Controlled Robots [82.04590367171932]
大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。
LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。
LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
論文 参考訳(メタデータ) (2024-10-17T15:55:36Z) - BadRobot: Jailbreaking Embodied LLMs in the Physical World [20.96351292684658]
Embodied AIは、AIが物理的エンティティに統合されるシステムを表す。
大きな言語モデル(LLM)は強力な言語理解能力を示す。
我々は,従来の音声ベースのユーザシステムインタラクションを通じて,LLMを安全性や倫理的制約に違反させることを目的とした,新たな攻撃パラダイムであるBadRobotを紹介した。
論文 参考訳(メタデータ) (2024-07-16T13:13:16Z) - Safety Control of Service Robots with LLMs and Embodied Knowledge Graphs [12.787160626087744]
本稿では,大規模言語モデルとERCP(Embodied Robotic Control Prompts)とEKG(Embodied Knowledge Graphs)との新たな統合を提案する。
ERCPは、LLMが安全かつ正確な応答を生成するための事前定義された命令として設計されている。
EKGは、ロボットの動作が安全プロトコルと継続的に一致していることを保証する包括的な知識基盤を提供する。
論文 参考訳(メタデータ) (2024-05-28T05:50:25Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Physical Backdoor Attack can Jeopardize Driving with Vision-Large-Language Models [53.701148276912406]
Vision-Large-Language-models (VLMs) は自動運転において大きな応用可能性を持っている。
BadVLMDriverは、物理的オブジェクトを使用して実際に起動できる自動運転のためのVLMに対する最初のバックドア攻撃である。
BadVLMDriverは、赤い風船を持った歩行者に突如、加速を誘導する攻撃の成功率を92%達成する。
論文 参考訳(メタデータ) (2024-04-19T14:40:38Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Plug in the Safety Chip: Enforcing Constraints for LLM-driven Robot
Agents [25.62431723307089]
線形時間論理(LTL)に基づく問合せ型安全制約モジュールを提案する。
我々のシステムは、安全上の制約を厳格に遵守し、複雑な安全上の制約とうまく対応し、実用性の可能性を強調します。
論文 参考訳(メタデータ) (2023-09-18T16:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。