Fugu-MT 論文翻訳(概要): Compromising Embodied Agents with Contextual Backdoor Attacks

論文の概要: Compromising Embodied Agents with Contextual Backdoor Attacks

arxiv url: http://arxiv.org/abs/2408.02882v1
Date: Tue, 6 Aug 2024 01:20:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 15:19:13.611267
Title: Compromising Embodied Agents with Contextual Backdoor Attacks
Title（参考訳）: コンテキスト的バックドアアタックによる身体的エージェントの妥協
Authors: Aishan Liu, Yuguang Zhou, Xianglong Liu, Tianyuan Zhang, Siyuan Liang, Jiakai Wang, Yanjun Pu, Tianlin Li, Junqi Zhang, Wenbo Zhou, Qing Guo, Dacheng Tao,
Abstract要約: 大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
参考スコア（独自算出の注目度）: 69.71630408822767
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have transformed the development of embodied intelligence. By providing a few contextual demonstrations, developers can utilize the extensive internal knowledge of LLMs to effortlessly translate complex tasks described in abstract language into sequences of code snippets, which will serve as the execution logic for embodied agents. However, this paper uncovers a significant backdoor security threat within this process and introduces a novel method called \method{}. By poisoning just a few contextual demonstrations, attackers can covertly compromise the contextual environment of a black-box LLM, prompting it to generate programs with context-dependent defects. These programs appear logically sound but contain defects that can activate and induce unintended behaviors when the operational agent encounters specific triggers in its interactive environment. To compromise the LLM's contextual environment, we employ adversarial in-context generation to optimize poisoned demonstrations, where an LLM judge evaluates these poisoned prompts, reporting to an additional LLM that iteratively optimizes the demonstration in a two-player adversarial game using chain-of-thought reasoning. To enable context-dependent behaviors in downstream agents, we implement a dual-modality activation strategy that controls both the generation and execution of program defects through textual and visual triggers. We expand the scope of our attack by developing five program defect modes that compromise key aspects of confidentiality, integrity, and availability in embodied agents. To validate the effectiveness of our approach, we conducted extensive experiments across various tasks, including robot planning, robot manipulation, and compositional visual reasoning. Additionally, we demonstrate the potential impact of our approach by successfully attacking real-world autonomous driving systems.
Abstract（参考訳）: 大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。いくつかの文脈的なデモを提供することで、開発者はLLMの内部知識を利用して、抽象言語で記述された複雑なタスクをコードスニペットのシーケンスに変換することができる。しかし,本研究では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにし,新しい手法である 'method{} を提案する。ほんの少しの文脈的デモンストレーションを毒殺することで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽し、コンテキスト依存の欠陥を持つプログラムを生成する。これらのプログラムは論理的に健全に見えるが、操作エージェントが対話環境で特定のトリガーに遭遇したときに意図しない動作を活性化し誘発する欠陥を含んでいる。 LLMの文脈環境を損なうため,LLM の審査員がこれらの有害なプロンプトを評価し,さらに LLM に,チェーン・オブ・ソート・推論を用いた2人の対戦型ゲームにおけるデモンストレーションを反復的に最適化する旨を報告した。下流エージェントにおけるコンテキスト依存的な動作を可能にするために、テキストおよび視覚的トリガによるプログラム欠陥の生成と実行の両方を制御するデュアルモードアクティベーション戦略を実装した。エンボディエージェントの機密性、完全性、可用性の重要な側面を損なう5つのプログラム欠陥モードを開発することで、攻撃の範囲を広げる。提案手法の有効性を検証するため,ロボット計画,ロボット操作,構成的視覚的推論など,様々なタスクにまたがる広範な実験を行った。さらに、現実の自動運転システムへの攻撃に成功して、我々のアプローチの潜在的影響を実証する。

関連論文リスト

Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。提案手法は既存のインジェクション攻撃よりも優れており,攻撃成功率が少なくとも26.4%向上している。
論文参考訳（メタデータ） (2025-04-19T16:28:03Z)
GraphAttack: Exploiting Representational Blindspots in LLM Safety Mechanisms [1.48325651280105]
本稿では,jailbreakプロンプトを生成する新しいグラフベースのアプローチを提案する。我々は、異なる変換を示すエッジを持つグラフ構造において、悪意のあるプロンプトをノードとして表現する。目的を実現するコードを生成するために LLM を指示することで,特に効果的なエクスプロイトベクトルを実証する。
論文参考訳（メタデータ） (2025-04-17T16:09:12Z)
MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳（メタデータ） (2025-03-24T20:38:42Z)
MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents [18.1558732924808]
物理的敵攻撃をワンショットパッチ生成問題として再検討する。提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
論文参考訳（メタデータ） (2024-12-11T01:41:19Z)
Universal and Context-Independent Triggers for Precise Control of LLM Outputs [6.390542864765991]
大規模言語モデル(LLM)は、自動コンテンツ生成や重要な意思決定システムといったアプリケーションで広く採用されている。勾配に基づくホワイトボックス攻撃技術の最近の進歩は、ジェイルブレイクやシステムプロンプトリークといったタスクにおいて有望であることを示している。そこで本研究では,このようなトリガを効果的に発見し,攻撃の有効性を評価する手法を提案する。
論文参考訳（メタデータ） (2024-11-22T05:17:18Z)
Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文参考訳（メタデータ） (2024-07-30T14:35:31Z)
BadRobot: Manipulating Embodied LLMs in the Physical World [20.96351292684658]
Embodied AIは、AIが物理的な実体に統合され、周囲を知覚し、相互作用することができるシステムを表す。強力な言語理解能力を示すLarge Language Model(LLM)は、組み込みAIに広く採用されている。我々は,従来の音声ベースのユーザシステムインタラクションを通じて,LLMを安全性や倫理的制約に違反させることを目的とした,新たな攻撃パラダイムであるBadRobotを紹介した。
論文参考訳（メタデータ） (2024-07-16T13:13:16Z)
Rethinking ChatGPT's Success: Usability and Cognitive Behaviors Enabled by Auto-regressive LLMs' Prompting [5.344199202349884]
本研究では,2種類の大規模言語モデルと6種類のタスク固有チャネルにおけるモーダル性の構造を分析した。本研究では,LLMにおける多様な認知行動の刺激について,自由形テキストと言語文脈の導入を通して検討する。
論文参考訳（メタデータ） (2024-05-17T00:19:41Z)
Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.046944831084776]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文参考訳（メタデータ） (2024-05-09T08:15:21Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。近年,マルチモーダル・インストラクション・チューニングが提案されている。敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文参考訳（メタデータ） (2024-02-21T14:54:30Z)
Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文参考訳（メタデータ） (2023-12-20T05:06:01Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。