論文の概要: Defense against Prompt Injection Attacks via Mixture of Encodings
- arxiv url: http://arxiv.org/abs/2504.07467v1
- Date: Thu, 10 Apr 2025 05:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:36.738196
- Title: Defense against Prompt Injection Attacks via Mixture of Encodings
- Title(参考訳): エンコーディングの混合によるプロンプトインジェクション攻撃に対する防御
- Authors: Ruiyi Zhang, David Sullivan, Kyle Jackson, Pengtao Xie, Mei Chen,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いNLPタスクにおいて支配的なアプローチとして現れてきた。
LLMはプロンプトインジェクション攻撃と呼ばれる新たな脆弱性を導入し、外部コンテンツは悪意のある命令を埋め込む。
近年、Base64防衛は、インジェクション攻撃の成功率を下げる最も効果的な方法の1つとして認識されている。
- 参考スコア(独自算出の注目度): 36.55495486214621
- License:
- Abstract: Large Language Models (LLMs) have emerged as a dominant approach for a wide range of NLP tasks, with their access to external information further enhancing their capabilities. However, this introduces new vulnerabilities, known as prompt injection attacks, where external content embeds malicious instructions that manipulate the LLM's output. Recently, the Base64 defense has been recognized as one of the most effective methods for reducing success rate of prompt injection attacks. Despite its efficacy, this method can degrade LLM performance on certain NLP tasks. To address this challenge, we propose a novel defense mechanism: mixture of encodings, which utilizes multiple character encodings, including Base64. Extensive experimental results show that our method achieves one of the lowest attack success rates under prompt injection attacks, while maintaining high performance across all NLP tasks, outperforming existing character encoding-based defense methods. This underscores the effectiveness of our mixture of encodings strategy for both safety and task performance metrics.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いNLPタスクにおいて支配的なアプローチとして登場し、外部情報へのアクセスをさらに強化している。
しかし、これはプロンプトインジェクション攻撃と呼ばれる新たな脆弱性を導入し、外部コンテンツはLSMの出力を操作する悪意のある命令を埋め込む。
近年、Base64防衛は、インジェクション攻撃の成功率を下げる最も効果的な方法の1つとして認識されている。
有効性にもかかわらず、この方法は特定のNLPタスクにおいてLLM性能を低下させることができる。
この課題に対処するために,Base64を含む複数の文字エンコーディングを利用する符号化の混合という,新しい防御機構を提案する。
大規模な実験結果から,本手法は全てのNLPタスクにおいて高い性能を維持しつつ,インジェクション攻撃時の攻撃成功率の最低値の1つを達成し,既存の文字符号化方式よりも優れていたことが示唆された。
このことは、安全とタスクパフォーマンスの両方の指標に対するエンコーディング戦略の混合の有効性を裏付けるものである。
関連論文リスト
- Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs [2.4117856871959953]
大規模言語モデル(LLM)は、人間のようなテキストを生成する強力な能力のため、様々なアプリケーションで広く利用されている。
プロンプトインジェクション攻撃は、モデルの最初の命令を悪意のあるプロンプトで上書きし、生成されたテキストを操作する。
本稿では,ファジィ技術を利用した新規な試験フレームワークであるProMPTFUZZを提案する。
論文 参考訳(メタデータ) (2024-09-23T06:08:32Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。