論文の概要: Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection
- arxiv url: http://arxiv.org/abs/2308.10819v2
- Date: Sat, 30 Sep 2023 19:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:21:53.522674
- Title: Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection
- Title(参考訳): プロンプトインジェクションに対する大規模言語モデルの指示追従ロバスト性の評価
- Authors: Zekun Li and Baolin Peng and Pengcheng He and Xifeng Yan
- Abstract要約: 大規模言語モデル(LLM)は、以下の命令で顕著な習熟度を示しており、顧客向けアプリケーションで有用である。
相手命令は、第三者攻撃者が入力したモデルに注入され、元の命令を操作し、意図しないアクションや内容を促す。
本稿では,命令追従型LLMの逆命令に対する堅牢性を自動的に評価するための先駆的ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 70.28425745910711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable proficiency in following
instructions, making them valuable in customer-facing applications. However,
their impressive capabilities also raise concerns about the amplification of
risks posed by adversarial instructions, which can be injected into the model
input by third-party attackers to manipulate LLMs' original instructions and
prompt unintended actions and content. Therefore, it is crucial to understand
LLMs' ability to accurately discern which instructions to follow to ensure
their safe deployment in real-world scenarios. In this paper, we propose a
pioneering benchmark for automatically evaluating the robustness of
instruction-following LLMs against adversarial instructions injected in the
prompt. The objective of this benchmark is to quantify the extent to which LLMs
are influenced by injected adversarial instructions and assess their ability to
differentiate between these injected adversarial instructions and original user
instructions. Through experiments conducted with state-of-the-art
instruction-following LLMs, we uncover significant limitations in their
robustness against adversarial instruction injection attacks. Furthermore, our
findings indicate that prevalent instruction-tuned models are prone to being
``overfitted'' to follow any instruction phrase in the prompt without truly
understanding which instructions should be followed. This highlights the need
to address the challenge of training models to comprehend prompts instead of
merely following instruction phrases and completing the text. The data and code
can be found at \url{https://github.com/Leezekun/Adv-Instruct-Eval}.
- Abstract(参考訳): 大規模言語モデル(llm)は、以下の指示に対して顕著な熟練度を示しており、顧客向けアプリケーションで有用である。
しかし、その印象的な能力は、敵の命令によって引き起こされるリスクの増幅にも懸念を生じさせ、サードパーティの攻撃者が入力したモデルに注入することで、LSMのオリジナル命令を操作し、意図しないアクションやコンテンツを促すことができる。
したがって、LLMがどの命令に従うべきかを正確に把握し、実際のシナリオに安全な配置を確実にする能力を理解することは重要である。
本稿では,プロンプトに挿入された敵命令に対する命令追従llmのロバスト性を自動的に評価するための先駆的ベンチマークを提案する。
本ベンチマークの目的は,LLMがインジェクションされた逆数命令の影響範囲を定量化し,これらのインジェクションされた逆数命令と元のユーザ命令とを区別する能力を評価することである。
最先端の命令追従型LDMを用いて行った実験により、敵の命令注入攻撃に対するロバスト性に大きな限界が明らかになった。
さらに,提案手法は,指示文を正しく理解することなく,指示句を指示文に従わせるために‘オーバーフィット’する傾向が強いことが示唆された。
これは単に命令句に従ってテキストを完了するのではなく、プロンプトを理解するためのトレーニングモデルの課題に対処する必要性を強調している。
データとコードは \url{https://github.com/Leezekun/Adv-Instruct-Eval} で見ることができる。
関連論文リスト
- Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs [16.296171008281775]
大規模言語モデル(LLM)は、人間のようなテキストを生成する強力な能力のため、様々なアプリケーションで広く利用されている。
プロンプトインジェクション攻撃は、モデルの最初の命令を悪意のあるプロンプトで上書きし、生成されたテキストを操作する。
本稿では,ファジィ技術を利用した新規な試験フレームワークであるProMPTFUZZを提案する。
論文 参考訳(メタデータ) (2024-09-23T06:08:32Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Enhancing Large Language Models Against Inductive Instructions with
Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。
広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。
異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-23T06:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。