論文の概要: Exploring Backdoor Attacks against Large Language Model-based Decision Making
- arxiv url: http://arxiv.org/abs/2405.20774v1
- Date: Mon, 27 May 2024 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:37:39.506811
- Title: Exploring Backdoor Attacks against Large Language Model-based Decision Making
- Title(参考訳): 大規模言語モデルに基づく意思決定に対するバックドアアタックの探索
- Authors: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、特定のアプリケーションで微調整された場合、意思決定タスクにおいて大きな可能性を示している。
これらのシステムは、微調整の段階でかなりの安全性とセキュリティ上のリスクにさらされている。
LLM対応意思決定システムに対するバックドアアタックの最初の包括的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.316115171846953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown significant promise in decision-making tasks when fine-tuned on specific applications, leveraging their inherent common sense and reasoning abilities learned from vast amounts of data. However, these systems are exposed to substantial safety and security risks during the fine-tuning phase. In this work, we propose the first comprehensive framework for Backdoor Attacks against LLM-enabled Decision-making systems (BALD), systematically exploring how such attacks can be introduced during the fine-tuning phase across various channels. Specifically, we propose three attack mechanisms and corresponding backdoor optimization methods to attack different components in the LLM-based decision-making pipeline: word injection, scenario manipulation, and knowledge injection. Word injection embeds trigger words directly into the query prompt. Scenario manipulation occurs in the physical environment, where a high-level backdoor semantic scenario triggers the attack. Knowledge injection conducts backdoor attacks on retrieval augmented generation (RAG)-based LLM systems, strategically injecting word triggers into poisoned knowledge while ensuring the information remains factually accurate for stealthiness. We conduct extensive experiments with three popular LLMs (GPT-3.5, LLaMA2, PaLM2), using two datasets (HighwayEnv, nuScenes), and demonstrate the effectiveness and stealthiness of our backdoor triggers and mechanisms. Finally, we critically assess the strengths and weaknesses of our proposed approaches, highlight the inherent vulnerabilities of LLMs in decision-making tasks, and evaluate potential defenses to safeguard LLM-based decision making systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定のアプリケーションに微調整を施した際の意思決定タスクにおいて、その固有の常識と大量のデータから学んだ推論能力を活用し、大きな可能性を示してきた。
しかし、これらのシステムは微調整の段階でかなりの安全性とセキュリティ上のリスクにさらされている。
本研究では,LDM対応意思決定システム(BALD)に対するバックドアアタックの最初の包括的枠組みを提案する。
具体的には,LLMに基づく意思決定パイプラインにおいて,単語注入,シナリオ操作,知識注入という,3つの攻撃機構とそれに対応するバックドア最適化手法を提案する。
ワードインジェクションは、クエリプロンプトに直接トリガーワードを埋め込む。
シナリオ操作は、高レベルのバックドアセマンティックシナリオが攻撃をトリガーする物理的環境で行われる。
知識注入は、検索拡張生成(RAG)ベースのLLMシステムに対してバックドア攻撃を行い、単語トリガーを有毒な知識に戦略的に注入し、情報が盗聴のために事実上正確であることを保証する。
我々は,3つの人気のあるLCM(GPT-3.5, LLaMA2, PaLM2)を用いて,2つのデータセット(HighwayEnv, nuScenes)を用いて広範囲に実験を行い,バックドアトリガと機構の有効性とステルス性を実証した。
最後に、提案手法の長所と短所を批判的に評価し、意思決定タスクにおけるLLM固有の脆弱性を強調し、LLMに基づく意思決定システムを保護するための潜在的防御を評価する。
関連論文リスト
- Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - POEX: Understanding and Mitigating Policy Executable Jailbreak Attacks against Embodied AI [10.87920459386508]
複雑な命令を実行可能なポリシに変換する計画モジュールとしてLLMを統合することで、Embodied AIシステムは急速に進化している。
本稿では,従来のLLMジェイルブレイク攻撃をEAIシステムに適用する可能性と理性について検討する。
論文 参考訳(メタデータ) (2024-12-21T13:58:27Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。
また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。
我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。
以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文 参考訳(メタデータ) (2024-10-20T14:07:24Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - A Study on Prompt Injection Attack Against LLM-Integrated Mobile Robotic Systems [4.71242457111104]
大規模言語モデル(LLM)はマルチモーダルプロンプトを処理でき、よりコンテキスト対応の応答を生成することができる。
主な懸念事項の1つは、ロボットナビゲーションタスクでLLMを使用する際の潜在的なセキュリティリスクである。
本研究は,LPM統合システムにおける即時注入が移動ロボットの性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-08-07T02:48:22Z) - Security Matrix for Multimodal Agents on Mobile Devices: A Systematic and Proof of Concept Study [16.559272781032632]
マルチモーダル大規模言語モデルの推論能力の急速な進歩は、モバイルデバイス上での自律エージェントシステムの開発をきっかけにしている。
ヒトと機械の相互作用効率が向上したにもかかわらず、MLLMベースの移動エージェントシステムのセキュリティリスクは体系的に研究されていない。
本稿では,MLLMシステムの設計におけるセキュリティ意識の必要性を強調し,今後の攻撃・防御手法の研究の道を開く。
論文 参考訳(メタデータ) (2024-07-12T14:30:05Z) - Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Invisible for both Camera and LiDAR: Security of Multi-Sensor Fusion
based Perception in Autonomous Driving Under Physical-World Attacks [62.923992740383966]
本稿では,MDFに基づくADシステムにおけるセキュリティ問題の最初の研究について述べる。
物理的に実現可能な逆3Dプリントオブジェクトを生成し、ADシステムが検出に失敗してクラッシュする。
以上の結果から,攻撃は様々なオブジェクトタイプおよびMSFに対して90%以上の成功率を達成した。
論文 参考訳(メタデータ) (2021-06-17T05:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。