論文の概要: Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs
Without Fine-Tuning
- arxiv url: http://arxiv.org/abs/2401.10862v1
- Date: Fri, 19 Jan 2024 18:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 14:56:53.342732
- Title: Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs
Without Fine-Tuning
- Title(参考訳): 防犯用プルーニング : 微調整のない配向LLMの耐ジェイルブレイク性の向上
- Authors: Adib Hasan, Ileana Rugina and Alex Wang
- Abstract要約: 大規模言語モデル(LLM)は、Jailbreakingのプロンプトに対して脆弱である。
また, LLMパラメータの最大20%のプルーニングは, 追加トレーニングを伴わずに攻撃に対する抵抗を著しく増大させることを示した。
我々は5つのカテゴリにまたがって225の有害なタスクを10種類のジェイルブレイクプロンプトに挿入するキュレートデータセットを導入する。
- 参考スコア(独自算出の注目度): 7.394607871445118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are vulnerable to `Jailbreaking' prompts, a type
of attack that can coax these models into generating harmful and illegal
content. In this paper, we show that pruning up to 20% of LLM parameters
markedly increases their resistance to such attacks without additional training
and without sacrificing their performance in standard benchmarks. Intriguingly,
we discovered that the enhanced safety observed post-pruning correlates to the
initial safety training level of the model, hinting that the effect of pruning
could be more general and may hold for other LLM behaviors beyond safety.
Additionally, we introduce a curated dataset of 225 harmful tasks across five
categories, inserted into ten different Jailbreaking prompts, showing that
pruning aids LLMs in concentrating attention on task-relevant tokens in
jailbreaking prompts. Lastly, our experiments reveal that the prominent chat
models, such as LLaMA-2 Chat, Vicuna, and Mistral Instruct exhibit high
susceptibility to jailbreaking attacks, with some categories achieving nearly
70-100% success rate. These insights underline the potential of pruning as a
generalizable approach for improving LLM safety, reliability, and potentially
other desired behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、これらのモデルを悪質で違法なコンテンツを生成するための攻撃の一種である'Jailbreaking'プロンプトに対して脆弱である。
本稿では, LLMパラメータの最大20%のプルーニングが, 追加トレーニングや標準ベンチマークのパフォーマンスを犠牲にすることなく, 攻撃に対する抵抗を著しく高めることを示す。
興味深いことに, 改良された安全性は, モデルの初期安全性トレーニングレベルと相関し, プルーニングの効果はより一般的なものになり, 安全性を超える他のLCMの挙動を保てる可能性が示唆された。
さらに,5つのカテゴリにまたがる225の有害なタスクを10種類のジェイルブレイクプロンプトに挿入したキュレートデータセットを導入し,ジェイルブレイクプロンプトにおけるタスク関連トークンに注意を集中させることにより,プルーニングがLLMを支援することを示した。
最後に, LLaMA-2 Chat, Vicuna, Mistral Instructなどの著名なチャットモデルでは, 脱獄攻撃に対して高い感受性を示し, いくつかのカテゴリが70~100%の成功率を達成した。
これらの知見は、LLMの安全性、信頼性、および潜在的に望まれる行動を改善するための一般化可能なアプローチとしてのプルーニングの可能性を示している。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、MLLMは脱獄攻撃に弱いままである。
我々は、安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防衛フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。