論文の概要: Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs
Without Fine-Tuning
- arxiv url: http://arxiv.org/abs/2401.10862v1
- Date: Fri, 19 Jan 2024 18:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 14:56:53.342732
- Title: Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs
Without Fine-Tuning
- Title(参考訳): 防犯用プルーニング : 微調整のない配向LLMの耐ジェイルブレイク性の向上
- Authors: Adib Hasan, Ileana Rugina and Alex Wang
- Abstract要約: 大規模言語モデル(LLM)は、Jailbreakingのプロンプトに対して脆弱である。
また, LLMパラメータの最大20%のプルーニングは, 追加トレーニングを伴わずに攻撃に対する抵抗を著しく増大させることを示した。
我々は5つのカテゴリにまたがって225の有害なタスクを10種類のジェイルブレイクプロンプトに挿入するキュレートデータセットを導入する。
- 参考スコア(独自算出の注目度): 7.394607871445118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are vulnerable to `Jailbreaking' prompts, a type
of attack that can coax these models into generating harmful and illegal
content. In this paper, we show that pruning up to 20% of LLM parameters
markedly increases their resistance to such attacks without additional training
and without sacrificing their performance in standard benchmarks. Intriguingly,
we discovered that the enhanced safety observed post-pruning correlates to the
initial safety training level of the model, hinting that the effect of pruning
could be more general and may hold for other LLM behaviors beyond safety.
Additionally, we introduce a curated dataset of 225 harmful tasks across five
categories, inserted into ten different Jailbreaking prompts, showing that
pruning aids LLMs in concentrating attention on task-relevant tokens in
jailbreaking prompts. Lastly, our experiments reveal that the prominent chat
models, such as LLaMA-2 Chat, Vicuna, and Mistral Instruct exhibit high
susceptibility to jailbreaking attacks, with some categories achieving nearly
70-100% success rate. These insights underline the potential of pruning as a
generalizable approach for improving LLM safety, reliability, and potentially
other desired behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、これらのモデルを悪質で違法なコンテンツを生成するための攻撃の一種である'Jailbreaking'プロンプトに対して脆弱である。
本稿では, LLMパラメータの最大20%のプルーニングが, 追加トレーニングや標準ベンチマークのパフォーマンスを犠牲にすることなく, 攻撃に対する抵抗を著しく高めることを示す。
興味深いことに, 改良された安全性は, モデルの初期安全性トレーニングレベルと相関し, プルーニングの効果はより一般的なものになり, 安全性を超える他のLCMの挙動を保てる可能性が示唆された。
さらに,5つのカテゴリにまたがる225の有害なタスクを10種類のジェイルブレイクプロンプトに挿入したキュレートデータセットを導入し,ジェイルブレイクプロンプトにおけるタスク関連トークンに注意を集中させることにより,プルーニングがLLMを支援することを示した。
最後に, LLaMA-2 Chat, Vicuna, Mistral Instructなどの著名なチャットモデルでは, 脱獄攻撃に対して高い感受性を示し, いくつかのカテゴリが70~100%の成功率を達成した。
これらの知見は、LLMの安全性、信頼性、および潜在的に望まれる行動を改善するための一般化可能なアプローチとしてのプルーニングの可能性を示している。
関連論文リスト
- Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。
我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。
我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文 参考訳(メタデータ) (2024-11-12T02:44:49Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。