論文の概要: Defense Against Prompt Injection Attack by Leveraging Attack Techniques
- arxiv url: http://arxiv.org/abs/2411.00459v2
- Date: Mon, 23 Dec 2024 08:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:50:33.321598
- Title: Defense Against Prompt Injection Attack by Leveraging Attack Techniques
- Title(参考訳): レバレッジ・アタック法によるプロンプト・インジェクション・アタックに対する防御
- Authors: Yulin Chen, Haoran Li, Zihao Zheng, Yangqiu Song, Dekai Wu, Bryan Hooi,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
- 参考スコア(独自算出の注目度): 66.65466992544728
- License:
- Abstract: With the advancement of technology, large language models (LLMs) have achieved remarkable performance across various natural language processing (NLP) tasks, powering LLM-integrated applications like Microsoft Copilot. However, as LLMs continue to evolve, new vulnerabilities, especially prompt injection attacks arise. These attacks trick LLMs into deviating from the original input instructions and executing the attacker's instructions injected in data content, such as retrieved results. Recent attack methods leverage LLMs' instruction-following abilities and their inabilities to distinguish instructions injected in the data content, and achieve a high attack success rate (ASR). When comparing the attack and defense methods, we interestingly find that they share similar design goals, of inducing the model to ignore unwanted instructions and instead to execute wanted instructions. Therefore, we raise an intuitive question: Could these attack techniques be utilized for defensive purposes? In this paper, we invert the intention of prompt injection methods to develop novel defense methods based on previous training-free attack methods, by repeating the attack process but with the original input instruction rather than the injected instruction. Our comprehensive experiments demonstrate that our defense techniques outperform existing training-free defense approaches, achieving state-of-the-art results.
- Abstract(参考訳): テクノロジーの進歩により、大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを達成し、Microsoft CopilotのようなLLM統合アプリケーションに電力を供給した。
しかし、LSMが進化し続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
これらの攻撃はLSMを騙して元の入力命令から逸脱させ、取得した結果などのデータコンテンツにアタッカーの命令を注入する。
近年の攻撃法では、LSMの命令追従能力とそれらの能力を利用して、データ内容に注入された命令を識別し、高い攻撃成功率(ASR)を達成する。
攻撃法と防御法を比較すると、不要な命令を無視するためにモデルを誘導し、代わりに所望の命令を実行するという、同様の設計目標を共有することが興味深い。
そこで我々は直感的な疑問を提起する:これらの攻撃技術は防御目的に利用できるか?
本稿では,従来の訓練不要攻撃法をベースとした新しい防御法を開発するために,インジェクション方式を意図を逆転させ,攻撃プロセスを繰り返すが,インジェクション方式ではなく,元の入力命令で行う。
我々の総合的な実験は、我々の防衛技術が既存の無訓練防衛手法より優れており、最先端の結果が得られていることを示している。
関連論文リスト
- FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks [45.65210717380502]
大規模言語モデル(LLM)は、現実世界のアプリケーションのための追加ツールとテキスト情報を備えたバックボーンとして広くデプロイされている。
プロンプトインジェクション攻撃は特に脅威であり、外部のテキスト情報に悪意のあるインストラクションを注入することで、LLMを利用して攻撃者が望む答えを生成することができる。
本稿では,AuThentication with Hash-based tags (FATH)という新しいテストタイム防衛戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-28T20:02:47Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Self-Evaluation as a Defense Against Adversarial Attacks on LLMs [20.79833694266861]
自己評価を生かした LLM に対する敵攻撃に対する防御策を導入する。
本手法では, モデル微調整を必要とせず, 生成モデルの入力と出力を評価するために, 事前学習モデルを用いる。
提案手法の有効性を解析し, 各種設定で評価器を攻撃しようとする試みを含む。
論文 参考訳(メタデータ) (2024-07-03T16:03:42Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。