論文の概要: Aligning LLMs to Be Robust Against Prompt Injection
- arxiv url: http://arxiv.org/abs/2410.05451v1
- Date: Mon, 7 Oct 2024 19:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 18:37:46.440629
- Title: Aligning LLMs to Be Robust Against Prompt Injection
- Title(参考訳): プロンプト注入に対するLCMのロバスト化
- Authors: Sizhe Chen, Arman Zharmagambetov, Saeed Mahloujifar, Kamalika Chaudhuri, Chuan Guo,
- Abstract要約: インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 55.07562650579068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are becoming increasingly prevalent in modern software systems, interfacing between the user and the internet to assist with tasks that require advanced language understanding. To accomplish these tasks, the LLM often uses external data sources such as user documents, web retrieval, results from API calls, etc. This opens up new avenues for attackers to manipulate the LLM via prompt injection. Adversarial prompts can be carefully crafted and injected into external data sources to override the user's intended instruction and instead execute a malicious instruction. Prompt injection attacks constitute a major threat to LLM security, making the design and implementation of practical countermeasures of paramount importance. To this end, we show that alignment can be a powerful tool to make LLMs more robust against prompt injection. Our method -- SecAlign -- first builds an alignment dataset by simulating prompt injection attacks and constructing pairs of desirable and undesirable responses. Then, we apply existing alignment techniques to fine-tune the LLM to be robust against these simulated attacks. Our experiments show that SecAlign robustifies the LLM substantially with a negligible hurt on model utility. Moreover, SecAlign's protection generalizes to strong attacks unseen in training. Specifically, the success rate of state-of-the-art GCG-based prompt injections drops from 56% to 2% in Mistral-7B after our alignment process. Our code is released at https://github.com/facebookresearch/SecAlign
- Abstract(参考訳): 大規模言語モデル(LLM)は、先進的な言語理解を必要とするタスクを支援するために、ユーザとインターネットの間に面した現代のソフトウェアシステムにおいて、ますます普及しつつある。
これらのタスクを達成するために、LLMはユーザー文書、Web検索、API呼び出しの結果などの外部データソースを使用することが多い。
これにより、攻撃者がプロンプトインジェクションを介してLLMを操作するための新たな道が開かれる。
相手のプロンプトを慎重に作成し、外部データソースに注入することで、ユーザの意図した命令をオーバーライドし、悪意のある命令を実行する。
プロンプト・インジェクション・アタック(英語版)はLLMのセキュリティにとって大きな脅威となり、最重要度の実用的対策の設計と実施を可能にした。
この結果から,LCMを即時注入に対してより堅牢にするために,アライメントが強力なツールであることが示唆された。
私たちのメソッド - SecAlign -- は、まず、プロンプトインジェクション攻撃をシミュレートし、望ましい応答と望ましくない応答のペアを構築することでアライメントデータセットを構築します。
そして、既存のアライメント技術を用いて、これらのシミュレーション攻撃に対して堅牢であるように、LLMを微調整する。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
さらに、SecAlignの保護は訓練中に見えない強力な攻撃に一般化される。
具体的には,アライメントプロセス後のミストラル7Bにおいて,最先端のGCGベースのプロンプトインジェクションの成功率は56%から2%に低下した。
私たちのコードはhttps://github.com/facebookresearch/SecAlignでリリースされています。
関連論文リスト
- Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks [45.65210717380502]
大規模言語モデル(LLM)は、現実世界のアプリケーションのための追加ツールとテキスト情報を備えたバックボーンとして広くデプロイされている。
プロンプトインジェクション攻撃は特に脅威であり、外部のテキスト情報に悪意のあるインストラクションを注入することで、LLMを利用して攻撃者が望む答えを生成することができる。
本稿では,AuThentication with Hash-based tags (FATH)という新しいテストタイム防衛戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-28T20:02:47Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。