論文の概要: Exploring Backdoor Attacks against Large Language Model-based Decision Making
- arxiv url: http://arxiv.org/abs/2405.20774v1
- Date: Mon, 27 May 2024 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:37:39.506811
- Title: Exploring Backdoor Attacks against Large Language Model-based Decision Making
- Title(参考訳): 大規模言語モデルに基づく意思決定に対するバックドアアタックの探索
- Authors: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、特定のアプリケーションで微調整された場合、意思決定タスクにおいて大きな可能性を示している。
これらのシステムは、微調整の段階でかなりの安全性とセキュリティ上のリスクにさらされている。
LLM対応意思決定システムに対するバックドアアタックの最初の包括的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.316115171846953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown significant promise in decision-making tasks when fine-tuned on specific applications, leveraging their inherent common sense and reasoning abilities learned from vast amounts of data. However, these systems are exposed to substantial safety and security risks during the fine-tuning phase. In this work, we propose the first comprehensive framework for Backdoor Attacks against LLM-enabled Decision-making systems (BALD), systematically exploring how such attacks can be introduced during the fine-tuning phase across various channels. Specifically, we propose three attack mechanisms and corresponding backdoor optimization methods to attack different components in the LLM-based decision-making pipeline: word injection, scenario manipulation, and knowledge injection. Word injection embeds trigger words directly into the query prompt. Scenario manipulation occurs in the physical environment, where a high-level backdoor semantic scenario triggers the attack. Knowledge injection conducts backdoor attacks on retrieval augmented generation (RAG)-based LLM systems, strategically injecting word triggers into poisoned knowledge while ensuring the information remains factually accurate for stealthiness. We conduct extensive experiments with three popular LLMs (GPT-3.5, LLaMA2, PaLM2), using two datasets (HighwayEnv, nuScenes), and demonstrate the effectiveness and stealthiness of our backdoor triggers and mechanisms. Finally, we critically assess the strengths and weaknesses of our proposed approaches, highlight the inherent vulnerabilities of LLMs in decision-making tasks, and evaluate potential defenses to safeguard LLM-based decision making systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定のアプリケーションに微調整を施した際の意思決定タスクにおいて、その固有の常識と大量のデータから学んだ推論能力を活用し、大きな可能性を示してきた。
しかし、これらのシステムは微調整の段階でかなりの安全性とセキュリティ上のリスクにさらされている。
本研究では,LDM対応意思決定システム(BALD)に対するバックドアアタックの最初の包括的枠組みを提案する。
具体的には,LLMに基づく意思決定パイプラインにおいて,単語注入,シナリオ操作,知識注入という,3つの攻撃機構とそれに対応するバックドア最適化手法を提案する。
ワードインジェクションは、クエリプロンプトに直接トリガーワードを埋め込む。
シナリオ操作は、高レベルのバックドアセマンティックシナリオが攻撃をトリガーする物理的環境で行われる。
知識注入は、検索拡張生成(RAG)ベースのLLMシステムに対してバックドア攻撃を行い、単語トリガーを有毒な知識に戦略的に注入し、情報が盗聴のために事実上正確であることを保証する。
我々は,3つの人気のあるLCM(GPT-3.5, LLaMA2, PaLM2)を用いて,2つのデータセット(HighwayEnv, nuScenes)を用いて広範囲に実験を行い,バックドアトリガと機構の有効性とステルス性を実証した。
最後に、提案手法の長所と短所を批判的に評価し、意思決定タスクにおけるLLM固有の脆弱性を強調し、LLMに基づく意思決定システムを保護するための潜在的防御を評価する。
関連論文リスト
- A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [25.381528717141684]
大規模言語モデル(LLM)は、人間の言語理解と複雑な問題解決のギャップを埋める。
LLMはセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすい。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - Context Injection Attacks on Large Language Models [12.920884182101142]
ChatGPTやLlama-2のような大規模言語モデル(LLM)は、現実世界のアプリケーションで広く使われている。
提案手法は,製造コンテキストを導入し,無効な応答を誘発することを目的としたコンテキストインジェクション攻撃を行うための体系的手法である。
我々のコンテキスト作成戦略、受け入れ推論、および単語匿名化は、攻撃者にカスタマイズされたプロンプトテンプレートで構造化可能な誤解を招くコンテキストを効果的に生成する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文 参考訳(メタデータ) (2024-05-22T07:21:32Z) - Optimization-based Prompt Injection Attack to LLM-as-a-Judge [78.20257854455562]
我々は,LLM-as-a-Judgeに合わせた新しい最適化ベースのプロンプトインジェクションアタックであるJiceDeceiverを紹介する。
提案手法は, LLM-as-a-Judgeの意思決定プロセスに対する正確な最適化目標を定式化する。
本手法は,手技によるインジェクション攻撃と比較して,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-26T13:58:00Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks [10.732558183444985]
悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。
本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。
本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-07T23:26:06Z) - PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models [11.693095252994482]
硬質および軟質のプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。
本研究は,プロンプトをベースとしたLSMに対するバックドア攻撃によるセキュリティの脅威を浮き彫りにし,さらなる研究の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-19T03:25:28Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。
セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文 参考訳(メタデータ) (2020-08-01T18:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。