論文の概要: PRP: Propagating Universal Perturbations to Attack Large Language Model
Guard-Rails
- arxiv url: http://arxiv.org/abs/2402.15911v1
- Date: Sat, 24 Feb 2024 21:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:19:15.459105
- Title: PRP: Propagating Universal Perturbations to Attack Large Language Model
Guard-Rails
- Title(参考訳): PRP:大規模言語モデルガード-Railsを攻撃するためのユニバーサルな摂動を推進
- Authors: Neal Mangaokar, Ashish Hooda, Jihye Choi, Shreyas Chandrashekaran,
Kassem Fawaz, Somesh Jha, Atul Prakash
- Abstract要約: 大規模言語モデル(LLM)は通常、人間に無害であるように整列される。
近年の研究では、このようなモデルが、有害なコンテンツを生成するよう誘導する自動ジェイルブレイク攻撃の影響を受けやすいことが示されている。
私たちの重要な貢献は、新しい攻撃戦略であるRPPを示すことです。これは、いくつかのオープンソース(例えば、Llama 2)とGPT 3.5)実装のクローズドソース(例えば、GPT 3.5)に対して成功したものです。
- 参考スコア(独自算出の注目度): 26.090757124460552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are typically aligned to be harmless to humans.
Unfortunately, recent work has shown that such models are susceptible to
automated jailbreak attacks that induce them to generate harmful content. More
recent LLMs often incorporate an additional layer of defense, a Guard Model,
which is a second LLM that is designed to check and moderate the output
response of the primary LLM. Our key contribution is to show a novel attack
strategy, PRP, that is successful against several open-source (e.g., Llama 2)
and closed-source (e.g., GPT 3.5) implementations of Guard Models. PRP
leverages a two step prefix-based attack that operates by (a) constructing a
universal adversarial prefix for the Guard Model, and (b) propagating this
prefix to the response. We find that this procedure is effective across
multiple threat models, including ones in which the adversary has no access to
the Guard Model at all. Our work suggests that further advances are required on
defenses and Guard Models before they can be considered effective.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、人間に無害であるように整列される。
残念なことに、最近の研究では、このようなモデルが、有害なコンテンツを生成するよう誘導する自動ジェイルブレイク攻撃の影響を受けやすいことが示されている。
より最近のllmには、プライマリllmの出力応答をチェックおよび緩和するように設計された第2のllmであるガードモデルの追加の防御層が組み込まれていることが多い。
私たちの重要な貢献は、いくつかのオープンソース(例えば、llama 2)とクローズドソース(例えばgpt 3.5)のガードモデルの実装に対して成功した、新しい攻撃戦略であるprpを示すことです。
PRPは2段階のプレフィックスベースの攻撃を利用する。
(a)ガードモデルのための普遍的敵プレフィックスの構築及び
(b)この接頭辞を応答に伝達すること。
この手順は、敵がガードモデルにまったくアクセスできないようなものを含む、複数の脅威モデルにまたがって有効であることが分かりました。
我々の研究は、防衛モデルや警備モデルにさらなる進歩が必要であることを示唆している。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks [20.5016054418053]
大規模言語モデル(LLM)から有害な応答をフィルタリングする応答フィルタリングに基づくマルチエージェントディフェンスフレームワークを提案する。
このフレームワークはLLMエージェントに異なる役割を割り当て、防衛タスクを協調的に完了するためにそれらを利用する。
我々は,通常のユーザ要求での性能を維持しつつ,脱獄攻撃に対する堅牢性を向上するためのAutoDefenseの有効性を検証した。
論文 参考訳(メタデータ) (2024-03-02T16:52:22Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
サードパーティのデータやモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなっている。
バックドア攻撃は 特定のトリガーを通して 予測された行動を示す モデルを誘導できる
セキュリティ上の課題、攻撃者の能力、目的を反映した、体系的で包括的なレビューはまだない。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z) - BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation
Models [25.938195038044448]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックであるNameを提案する。
相手は、事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。
実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で妥協できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-06T02:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。