論文の概要: POEX: Towards Policy Executable Jailbreak Attacks Against the LLM-based Robots
- arxiv url: http://arxiv.org/abs/2412.16633v3
- Date: Mon, 11 Aug 2025 08:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:51.466745
- Title: POEX: Towards Policy Executable Jailbreak Attacks Against the LLM-based Robots
- Title(参考訳): POEX: LLMベースのロボットに対する政策実行可能なジェイルブレイク攻撃に向けて
- Authors: Xuancun Lu, Zhengxian Huang, Xinfeng Li, Chi Zhang, Xiaoyu ji, Wenyuan Xu,
- Abstract要約: 本稿では,LLM型ロボットに対するジェイルブレイク攻撃の実現可能性と理性について検討する。
より徹底的なセキュリティ分析を可能にするため、POEX(Policy Executable)ジェイルブレイクを導入する。
実世界のロボットシステムおよびシミュレーション実験は、POEXの有効性を実証した。
- 参考スコア(独自算出の注目度): 12.356183647226306
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of LLMs into robots has witnessed significant growth, where LLMs can convert instructions into executable robot policies. However, the inherent vulnerability of LLMs to jailbreak attacks brings critical security risks from the digital domain to the physical world. An attacked LLM-based robot could execute harmful policies and cause physical harm. In this paper, we investigate the feasibility and rationale of jailbreak attacks against LLM-based robots and answer three research questions: (1) How applicable are existing LLM jailbreak attacks against LLM-based robots? (2) What unique challenges arise if they are not directly applicable? (3) How to defend against such jailbreak attacks? To this end, we first construct a "human-object-environment" robot risks-oriented Harmful-RLbench and then conduct a measurement study on LLM-based robot systems. Our findings conclude that traditional LLM jailbreak attacks are inapplicable in robot scenarios, and we identify two unique challenges: determining policy-executable optimization directions and accurately evaluating robot-jailbroken policies. To enable a more thorough security analysis, we introduce POEX (POlicy EXecutable) jailbreak, a red-teaming framework that induces harmful yet executable policy to jailbreak LLM-based robots. POEX incorporates hidden layer gradient optimization to guarantee jailbreak success and policy execution as well as a multi-agent evaluator to accurately assess the practical executability of policies. Experiments conducted on the real-world robotic systems and in simulation demonstrate the efficacy of POEX, highlighting critical security vulnerabilities and its transferability across LLMs. Finally, we propose prompt-based and model-based defenses to mitigate attacks. Our findings underscore the urgent need for security measures to ensure the safe deployment of LLM-based robots in critical applications.
- Abstract(参考訳): LLMをロボットに統合することで、LLMは命令を実行可能なロボットポリシーに変換することができる。
しかし、LDMがジェイルブレイク攻撃に固有の脆弱性は、デジタルドメインから物理的な世界への重大なセキュリティリスクをもたらす。
攻撃されたLSMベースのロボットは、有害なポリシーを実行し、身体的危害を引き起こす可能性がある。
本稿では,LLMをベースとしたロボットに対するジェイルブレイク攻撃の可能性と理性について検討し,(1)既存のLLMジェイルブレイク攻撃がLLMベースのロボットに対してどの程度適用可能か,という3つの研究課題に答える。
2) 直接適用できない場合,ユニークな課題は何か?
(3)このような脱獄攻撃をどう防ぐか。
そこで我々はまず,リスク指向型ロボットHarmful-RLbenchを構築し,LLMに基づくロボットシステムの計測研究を行った。
従来のLLMジェイルブレイク攻撃はロボットのシナリオでは適用できないと結論し、ポリシー実行可能な最適化方向の決定と、ロボットジェイルブレイクポリシーの正確な評価という2つのユニークな課題を特定した。
より徹底的なセキュリティ分析を可能にするために,我々は,LLMベースのロボットに対して有害で実行可能なポリシーを誘導するレッドチームフレームワークであるPOEX(Policy Executable)jailbreakを導入する。
POEXには、ジェイルブレイクの成功とポリシー実行を保証するために、隠された階層勾配最適化と、ポリシーの実践的実行可能性を正確に評価するマルチエージェント評価器が組み込まれている。
実世界のロボットシステムとシミュレーションで実施された実験は、POEXの有効性を実証し、重大なセキュリティ上の脆弱性とLSM間の転送可能性を強調した。
最後に,攻撃を緩和するためのプロンプトベースおよびモデルベースディフェンスを提案する。
本研究は,LLMをベースとしたロボットを重要なアプリケーションに安全に配置する上で,緊急のセキュリティ対策の必要性を浮き彫りにした。
関連論文リスト
- Prompt Injection 2.0: Hybrid AI Threats [0.0]
我々はプレアンブルの基礎研究と緩和技術を構築し、現代の脅威に対してそれらを評価した。
我々は,迅速なアイソレーション,ランタイムセキュリティ,特権分離と新たな脅威検出機能を組み合わせたアーキテクチャソリューションを提案する。
論文 参考訳(メタデータ) (2025-07-17T14:33:36Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Security Steerability is All You Need [3.475823664889679]
LLMはアドホックなアプリケーション固有の脅威から保護することはできないが、そのような脅威からアプリケーションを保護するためのフレームワークを提供することができる。
最初のコントリビューションはセキュリティステアビリティの定義です - LLMの新たなセキュリティ対策であり、システムプロンプトで定義された厳格なガードレールに従うモデルの能力を評価します。
第2のコントリビューションは、新たに開発された2つのデータセットを利用して、LLMのセキュリティステアビリティを測定する手法である。
論文 参考訳(メタデータ) (2025-04-28T06:40:01Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking [34.479355499938116]
大規模言語モデル(LLM)は、重要なアプリケーションをもたらすだけでなく、深刻なセキュリティ脅威も導入している。
我々はAttackPrefixTree (APT)と呼ばれるブラックボックス攻撃フレームワークを導入する。
APTは構造化された出力インタフェースを利用して攻撃パターンを動的に構築する。
ベンチマークデータセットの実験は、このアプローチが既存の手法よりも高い攻撃成功率を達成することを示している。
論文 参考訳(メタデータ) (2025-02-19T08:29:36Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - Improved Large Language Model Jailbreak Detection via Pretrained Embeddings [0.0]
本稿では,従来の機械学習分類アルゴリズムを用いた検索に適したペアリングテキスト埋め込みに基づくジェイルブレイクプロンプトの検出手法を提案する。
当社のアプローチは,オープンソースのLLMセキュリティアプリケーションから入手可能なすべてのメソッドを上回ります。
論文 参考訳(メタデータ) (2024-12-02T14:35:43Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [20.154877919740322]
既存のjailbreakメソッドには、複雑なプロンプトエンジニアリングと反復最適化の2つの大きな制限がある。
本稿では,LLMの高度な推論能力を活用し,有害コンテンツを自律的に生成する効率的なジェイルブレイク攻撃手法であるAnalyzing-based Jailbreak(ABJ)を提案する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。