Fugu-MT 論文翻訳(概要): Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems

論文の概要: Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems

arxiv url: http://arxiv.org/abs/2405.20774v2
Date: Sat, 05 Oct 2024 05:17:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 21:22:14.067499
Title: Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems
Title（参考訳）: 身体的エージェントを信頼できるか? : 身体的LCMに基づく意思決定システムに対するバックドアアタックを探る
Authors: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu,
Abstract要約: 大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。 LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
参考スコア（独自算出の注目度）: 27.316115171846953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown significant promise in real-world decision-making tasks for embodied artificial intelligence, especially when fine-tuned to leverage their inherent common sense and reasoning abilities while being tailored to specific applications. However, this fine-tuning process introduces considerable safety and security vulnerabilities, especially in safety-critical cyber-physical systems. In this work, we propose the first comprehensive framework for Backdoor Attacks against LLM-based Decision-making systems (BALD) in embodied AI, systematically exploring the attack surfaces and trigger mechanisms. Specifically, we propose three distinct attack mechanisms: word injection, scenario manipulation, and knowledge injection, targeting various components in the LLM-based decision-making pipeline. We perform extensive experiments on representative LLMs (GPT-3.5, LLaMA2, PaLM2) in autonomous driving and home robot tasks, demonstrating the effectiveness and stealthiness of our backdoor triggers across various attack channels, with cases like vehicles accelerating toward obstacles and robots placing knives on beds. Our word and knowledge injection attacks achieve nearly 100% success rate across multiple models and datasets while requiring only limited access to the system. Our scenario manipulation attack yields success rates exceeding 65%, reaching up to 90%, and does not require any runtime system intrusion. We also assess the robustness of these attacks against defenses, revealing their resilience. Our findings highlight critical security vulnerabilities in embodied LLM systems and emphasize the urgent need for safeguarding these systems to mitigate potential risks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人工知能を具現化した実世界の意思決定タスクにおいて、特に特定の応用に合わせて調整されながら、その固有の常識と推論能力を活用するように微調整された場合において、大きな可能性を示している。しかし、この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティ上の脆弱性をもたらす。本研究では,LLMに基づく意思決定システム(BALD)に対するバックドアアタックの最初の包括的フレームワークを提案する。具体的には,LLMに基づく意思決定パイプラインの様々なコンポーネントを対象として,単語注入,シナリオ操作,知識注入という3つの異なる攻撃機構を提案する。我々は、自律走行およびホームロボット作業における代表的LLM(GPT-3.5, LLaMA2, PaLM2)に関する広範な実験を行い、さまざまな攻撃チャネルにおけるバックドアトリガーの有効性とステルス性を実証した。我々の単語と知識注入攻撃は、システムへの限られたアクセスしか必要とせず、複数のモデルとデータセット間で100%近い成功率を達成する。我々のシナリオ操作攻撃は成功率が65%を超え、最大90%に達し、ランタイムシステムの侵入を必要としない。我々はまた、これらの防衛に対する攻撃の堅牢性を評価し、その弾力性を明らかにします。本研究は,LLMシステムにおける重大なセキュリティ脆弱性を浮き彫りにし,潜在的なリスクを軽減するため,これらのシステムを保護する緊急の必要性を強調した。

関連論文リスト

The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.18472148461613155]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、前例のないセキュリティ脆弱性を導入している。本稿では,自律エージェント内の推論エンジンとして使用されるLDMの安全性を総合的に評価する。我々は、このような買収を組織するために、異なる攻撃面と信頼境界をどのように活用できるかに焦点を当てる。
論文参考訳（メタデータ） (2025-07-09T13:54:58Z)
AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文参考訳（メタデータ） (2025-04-18T08:38:56Z)
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。 GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。 GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文参考訳（メタデータ） (2025-02-23T23:35:15Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
POEX: Understanding and Mitigating Policy Executable Jailbreak Attacks against Embodied AI [10.87920459386508]
複雑な命令を実行可能なポリシに変換する計画モジュールとしてLLMを統合することで、Embodied AIシステムは急速に進化している。本稿では,従来のLLMジェイルブレイク攻撃をEAIシステムに適用する可能性と理性について検討する。
論文参考訳（メタデータ） (2024-12-21T13:58:27Z)
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文参考訳（メタデータ） (2024-11-18T01:52:20Z)
Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文参考訳（メタデータ） (2024-11-04T17:41:25Z)
The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文参考訳（メタデータ） (2024-10-20T14:07:24Z)
ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文参考訳（メタデータ） (2024-10-05T02:58:20Z)
A Study on Prompt Injection Attack Against LLM-Integrated Mobile Robotic Systems [4.71242457111104]
大規模言語モデル(LLM)はマルチモーダルプロンプトを処理でき、よりコンテキスト対応の応答を生成することができる。主な懸念事項の1つは、ロボットナビゲーションタスクでLLMを使用する際の潜在的なセキュリティリスクである。本研究は,LPM統合システムにおける即時注入が移動ロボットの性能に及ぼす影響について検討する。
論文参考訳（メタデータ） (2024-08-07T02:48:22Z)
Security Matrix for Multimodal Agents on Mobile Devices: A Systematic and Proof of Concept Study [16.559272781032632]
マルチモーダル大規模言語モデルの推論能力の急速な進歩は、モバイルデバイス上での自律エージェントシステムの開発をきっかけにしている。ヒトと機械の相互作用効率が向上したにもかかわらず、MLLMベースの移動エージェントシステムのセキュリティリスクは体系的に研究されていない。本稿では,MLLMシステムの設計におけるセキュリティ意識の必要性を強調し,今後の攻撃・防御手法の研究の道を開く。
論文参考訳（メタデータ） (2024-07-12T14:30:05Z)
Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。 7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文参考訳（メタデータ） (2024-04-24T23:39:58Z)
Physical Backdoor Attack can Jeopardize Driving with Vision-Large-Language Models [53.701148276912406]
Vision-Large-Language-models (VLMs) は自動運転において大きな応用可能性を持っている。 BadVLMDriverは、物理的オブジェクトを使用して実際に起動できる自動運転のためのVLMに対する最初のバックドア攻撃である。 BadVLMDriverは、赤い風船を持った歩行者に突如、加速を誘導する攻撃の成功率を92%達成する。
論文参考訳（メタデータ） (2024-04-19T14:40:38Z)
Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Unveiling Vulnerabilities in Interpretable Deep Learning Systems with Query-Efficient Black-box Attacks [16.13790238416691]
解釈可能なディープラーニングシステム(IDLS)は、システムの透明性と説明性を高めるために設計されている。本稿では,ターゲットモデルとその解釈モデルに関する事前知識を必要としない新規な微生物遺伝アルゴリズムによるIDLSに対するブラックボックス攻撃を提案する。
論文参考訳（メタデータ） (2023-07-21T21:09:54Z)
Invisible for both Camera and LiDAR: Security of Multi-Sensor Fusion based Perception in Autonomous Driving Under Physical-World Attacks [62.923992740383966]
本稿では,MDFに基づくADシステムにおけるセキュリティ問題の最初の研究について述べる。物理的に実現可能な逆3Dプリントオブジェクトを生成し、ADシステムが検出に失敗してクラッシュする。以上の結果から,攻撃は様々なオブジェクトタイプおよびMSFに対して90%以上の成功率を達成した。
論文参考訳（メタデータ） (2021-06-17T05:11:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。