論文の概要: Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection
- arxiv url: http://arxiv.org/abs/2308.10819v2
- Date: Sat, 30 Sep 2023 19:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:21:53.522674
- Title: Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection
- Title(参考訳): プロンプトインジェクションに対する大規模言語モデルの指示追従ロバスト性の評価
- Authors: Zekun Li and Baolin Peng and Pengcheng He and Xifeng Yan
- Abstract要約: 大規模言語モデル(LLM)は、以下の命令で顕著な習熟度を示しており、顧客向けアプリケーションで有用である。
相手命令は、第三者攻撃者が入力したモデルに注入され、元の命令を操作し、意図しないアクションや内容を促す。
本稿では,命令追従型LLMの逆命令に対する堅牢性を自動的に評価するための先駆的ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 70.28425745910711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable proficiency in following
instructions, making them valuable in customer-facing applications. However,
their impressive capabilities also raise concerns about the amplification of
risks posed by adversarial instructions, which can be injected into the model
input by third-party attackers to manipulate LLMs' original instructions and
prompt unintended actions and content. Therefore, it is crucial to understand
LLMs' ability to accurately discern which instructions to follow to ensure
their safe deployment in real-world scenarios. In this paper, we propose a
pioneering benchmark for automatically evaluating the robustness of
instruction-following LLMs against adversarial instructions injected in the
prompt. The objective of this benchmark is to quantify the extent to which LLMs
are influenced by injected adversarial instructions and assess their ability to
differentiate between these injected adversarial instructions and original user
instructions. Through experiments conducted with state-of-the-art
instruction-following LLMs, we uncover significant limitations in their
robustness against adversarial instruction injection attacks. Furthermore, our
findings indicate that prevalent instruction-tuned models are prone to being
``overfitted'' to follow any instruction phrase in the prompt without truly
understanding which instructions should be followed. This highlights the need
to address the challenge of training models to comprehend prompts instead of
merely following instruction phrases and completing the text. The data and code
can be found at \url{https://github.com/Leezekun/Adv-Instruct-Eval}.
- Abstract(参考訳): 大規模言語モデル(llm)は、以下の指示に対して顕著な熟練度を示しており、顧客向けアプリケーションで有用である。
しかし、その印象的な能力は、敵の命令によって引き起こされるリスクの増幅にも懸念を生じさせ、サードパーティの攻撃者が入力したモデルに注入することで、LSMのオリジナル命令を操作し、意図しないアクションやコンテンツを促すことができる。
したがって、LLMがどの命令に従うべきかを正確に把握し、実際のシナリオに安全な配置を確実にする能力を理解することは重要である。
本稿では,プロンプトに挿入された敵命令に対する命令追従llmのロバスト性を自動的に評価するための先駆的ベンチマークを提案する。
本ベンチマークの目的は,LLMがインジェクションされた逆数命令の影響範囲を定量化し,これらのインジェクションされた逆数命令と元のユーザ命令とを区別する能力を評価することである。
最先端の命令追従型LDMを用いて行った実験により、敵の命令注入攻撃に対するロバスト性に大きな限界が明らかになった。
さらに,提案手法は,指示文を正しく理解することなく,指示句を指示文に従わせるために‘オーバーフィット’する傾向が強いことが示唆された。
これは単に命令句に従ってテキストを完了するのではなく、プロンプトを理解するためのトレーニングモデルの課題に対処する必要性を強調している。
データとコードは \url{https://github.com/Leezekun/Adv-Instruct-Eval} で見ることができる。
関連論文リスト
- Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model
Customization [39.55330732545979]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
このような攻撃を緩和する際の部分的有効性を示すため,命令を無視した防御機構を提案する。
論文 参考訳(メタデータ) (2024-02-14T13:47:35Z) - Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks
Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。
この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。
実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文 参考訳(メタデータ) (2024-01-15T11:44:18Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Hijacking Large Language Models via Adversarial In-Context Learning [9.161967285486051]
本研究は,LSMをハイジャックして標的とする応答を発生させることを目的として,ICLに新たなトランスファー可能な攻撃を導入する。
提案したLSMハイジャック攻撃は、インコンテクストのデモに知覚不可能な逆接接尾辞を学習し、付加するために勾配に基づくプロンプトサーチ手法を利用する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Enhancing Large Language Models Against Inductive Instructions with
Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。
広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。
異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-23T06:38:20Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。