論文の概要: Do you really follow me? Adversarial Instructions for Evaluating the
Robustness of Large Language Models
- arxiv url: http://arxiv.org/abs/2308.10819v1
- Date: Thu, 17 Aug 2023 06:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 12:38:29.007941
- Title: Do you really follow me? Adversarial Instructions for Evaluating the
Robustness of Large Language Models
- Title(参考訳): あなたは本当に私に従いますか?
大規模言語モデルのロバスト性評価のための逆命令
- Authors: Zekun Li and Baolin Peng and Pengcheng He and Xifeng Yan
- Abstract要約: 大規模言語モデル(LLM)は、以下の命令で顕著な習熟度を示しており、顧客向けアプリケーションで有用である。
逆命令 — サードパーティ攻撃者が入力したモデルにインジェクトできる。
本稿では,LLMの逆命令に対するロバスト性を自動的に評価するための先駆的ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 70.28425745910711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable proficiency in following
instructions, making them valuable in customer-facing applications. However,
their impressive capabilities also raise concerns about the amplification of
risks posed by adversarial instructions, which can be injected into the model
input by third-party attackers to manipulate LLMs' original instructions and
prompt unintended actions and content. Therefore, it is crucial to understand
LLMs' ability to accurately discern which instructions to follow to ensure
their safe deployment in real-world scenarios. In this paper, we propose a
pioneering benchmark for automatically evaluating the robustness of LLMs
against adversarial instructions. The objective of this benchmark is to
quantify the extent to which LLMs are influenced by injected adversarial
instructions and assess their ability to differentiate between these
adversarial instructions and original user instructions. Through experiments
conducted with state-of-the-art instruction-following LLMs, we uncover
significant limitations in their robustness against adversarial instruction
attacks. Furthermore, our findings indicate that prevalent instruction-tuned
models are prone to being overfitted to follow any instruction phrase in the
prompt without truly understanding which instructions should be followed. This
highlights the need to address the challenge of training models to comprehend
prompts instead of merely following instruction phrases and completing the
text.
- Abstract(参考訳): 大規模言語モデル(llm)は、以下の指示に対して顕著な熟練度を示しており、顧客向けアプリケーションで有用である。
しかし、その印象的な能力は、敵の命令によって引き起こされるリスクの増幅にも懸念を生じさせ、サードパーティの攻撃者が入力したモデルに注入することで、LSMのオリジナル命令を操作し、意図しないアクションやコンテンツを促すことができる。
したがって、LLMがどの命令に従うべきかを正確に把握し、実際のシナリオに安全な配置を確実にする能力を理解することは重要である。
本稿では,LLMの逆命令に対する堅牢性を自動的に評価するための先駆的ベンチマークを提案する。
本ベンチマークの目的は,LSMがインジェクションされた逆数命令の影響範囲を定量化し,これらの逆数命令と元のユーザ命令とを区別する能力を評価することである。
最先端の命令追従 LLM を用いて行った実験により、敵の命令攻撃に対するロバスト性に大きな限界が明らかになった。
さらに,提案手法は,指示文を正しく理解することなく,命令句を指示文に従わせるために過度に適合する傾向が示唆された。
これは単に命令句に従ってテキストを完了するのではなく、プロンプトを理解するためのトレーニングモデルの課題に対処する必要性を強調している。
関連論文リスト
- Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy [53.54777131440989]
LLM(Large Language Models)は、セキュリティや安全性の脅威を受けやすい言語である。
これらの脆弱性の大きな原因の1つは、命令階層の欠如である。
本稿では,BERTにインスパイアされた命令セグメント埋め込み(ISE)技法を,現代の大規模言語モデルに導入する。
論文 参考訳(メタデータ) (2024-10-09T12:52:41Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs [16.296171008281775]
大規模言語モデル(LLM)は、人間のようなテキストを生成する強力な能力のため、様々なアプリケーションで広く利用されている。
プロンプトインジェクション攻撃は、モデルの最初の命令を悪意のあるプロンプトで上書きし、生成されたテキストを操作する。
本稿では,ファジィ技術を利用した新規な試験フレームワークであるProMPTFUZZを提案する。
論文 参考訳(メタデータ) (2024-09-23T06:08:32Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Enhancing Large Language Models Against Inductive Instructions with
Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。
広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。
異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-23T06:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。