論文の概要: Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs
Without Fine-Tuning
- arxiv url: http://arxiv.org/abs/2401.10862v1
- Date: Fri, 19 Jan 2024 18:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 14:56:53.342732
- Title: Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs
Without Fine-Tuning
- Title(参考訳): 防犯用プルーニング : 微調整のない配向LLMの耐ジェイルブレイク性の向上
- Authors: Adib Hasan, Ileana Rugina and Alex Wang
- Abstract要約: 大規模言語モデル(LLM)は、Jailbreakingのプロンプトに対して脆弱である。
また, LLMパラメータの最大20%のプルーニングは, 追加トレーニングを伴わずに攻撃に対する抵抗を著しく増大させることを示した。
我々は5つのカテゴリにまたがって225の有害なタスクを10種類のジェイルブレイクプロンプトに挿入するキュレートデータセットを導入する。
- 参考スコア(独自算出の注目度): 7.394607871445118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are vulnerable to `Jailbreaking' prompts, a type
of attack that can coax these models into generating harmful and illegal
content. In this paper, we show that pruning up to 20% of LLM parameters
markedly increases their resistance to such attacks without additional training
and without sacrificing their performance in standard benchmarks. Intriguingly,
we discovered that the enhanced safety observed post-pruning correlates to the
initial safety training level of the model, hinting that the effect of pruning
could be more general and may hold for other LLM behaviors beyond safety.
Additionally, we introduce a curated dataset of 225 harmful tasks across five
categories, inserted into ten different Jailbreaking prompts, showing that
pruning aids LLMs in concentrating attention on task-relevant tokens in
jailbreaking prompts. Lastly, our experiments reveal that the prominent chat
models, such as LLaMA-2 Chat, Vicuna, and Mistral Instruct exhibit high
susceptibility to jailbreaking attacks, with some categories achieving nearly
70-100% success rate. These insights underline the potential of pruning as a
generalizable approach for improving LLM safety, reliability, and potentially
other desired behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、これらのモデルを悪質で違法なコンテンツを生成するための攻撃の一種である'Jailbreaking'プロンプトに対して脆弱である。
本稿では, LLMパラメータの最大20%のプルーニングが, 追加トレーニングや標準ベンチマークのパフォーマンスを犠牲にすることなく, 攻撃に対する抵抗を著しく高めることを示す。
興味深いことに, 改良された安全性は, モデルの初期安全性トレーニングレベルと相関し, プルーニングの効果はより一般的なものになり, 安全性を超える他のLCMの挙動を保てる可能性が示唆された。
さらに,5つのカテゴリにまたがる225の有害なタスクを10種類のジェイルブレイクプロンプトに挿入したキュレートデータセットを導入し,ジェイルブレイクプロンプトにおけるタスク関連トークンに注意を集中させることにより,プルーニングがLLMを支援することを示した。
最後に, LLaMA-2 Chat, Vicuna, Mistral Instructなどの著名なチャットモデルでは, 脱獄攻撃に対して高い感受性を示し, いくつかのカテゴリが70~100%の成功率を達成した。
これらの知見は、LLMの安全性、信頼性、および潜在的に望まれる行動を改善するための一般化可能なアプローチとしてのプルーニングの可能性を示している。
関連論文リスト
- Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Mitigating Fine-tuning Jailbreak Attack with Backdoor Enhanced Alignment [58.07171349593672]
ファインチューニングベースのジェイルブレイク攻撃(FJAttack)に対する防御のためのバックドア強化安全アライメントを提案する。
安全事例に先行する「バックドアトリガー」として,シークレットプロンプトを統合することで,プレフィックス付き安全事例を構築した。
我々の実験は、バックドア強化安全アライメント(Backdoor Enhanced Safety Alignment)により、最大11個のプレフィックス付き安全サンプルを追加することで、悪意ある微調整 LLM が元のアライメントモデルと同様の安全性性能を達成することを実証した。
論文 参考訳(メタデータ) (2024-02-22T21:05:18Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware
Decoding [37.88220351224544]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large
Language Models [42.44428860052108]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - On Prompt-Driven Safeguarding for Large Language Models [178.612893285033]
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。