論文の概要: Efficient Safety Retrofitting Against Jailbreaking for LLMs
- arxiv url: http://arxiv.org/abs/2502.13603v2
- Date: Tue, 25 Feb 2025 12:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 11:59:21.438490
- Title: Efficient Safety Retrofitting Against Jailbreaking for LLMs
- Title(参考訳): LLMの脱獄対策における安全性向上
- Authors: Dario Garcia-Gasulla, Adrian Tormos, Anna Arias-Duart, Daniel Hinjos, Oscar Molina-Sedano, Ashwin Kumar Gururajan, Maria Eugenia Cardello,
- Abstract要約: 直接選好最適化 (DPO) は, 選好データに基づく学習により, LLM を好ましい出力に向けて操る, 効率的なアライメント手法である。
本稿では,データ要求とトレーニングコストを最小限に抑えつつ,DPOの脱獄攻撃に対するモデル安全性の有効性について検討する。
- 参考スコア(独自算出の注目度): 0.4711628883579317
- License:
- Abstract: Direct Preference Optimization (DPO) is an efficient alignment technique that steers LLMs towards preferable outputs by training on preference data, bypassing the need for explicit reward models. Its simplicity enables easy adaptation to various domains and safety requirements. This paper examines DPO's effectiveness in model safety against jailbreaking attacks while minimizing data requirements and training costs. We introduce Egida, a dataset expanded from multiple sources, which includes 27 different safety topics and 18 different attack styles, complemented with synthetic and human labels. This data is used to boost the safety of state-of-the-art LLMs (Llama-3.1-8B/70B-Instruct, Qwen-2.5-7B/72B-Instruct) across topics and attack styles. In addition to safety evaluations, we assess their post-alignment performance degradation in general purpose tasks, and their tendency to over refusal. Following the proposed methodology, trained models reduce their Attack Success Rate by 10%-30%, using small training efforts (2,000 samples) with low computational cost (3\$ for 8B models, 20\$ for 72B models). Safety aligned models generalize to unseen topics and attack styles, with the most successful attack style reaching a success rate around 5%. Size and family are found to strongly influence model malleability towards safety, pointing at the importance of pre-training choices. To validate our findings, a large independent assessment of human preference agreement with Llama-Guard-3-8B is conducted by the authors and the associated dataset Egida-HSafe is released. Overall, this study illustrates how affordable and accessible it is to enhance LLM safety using DPO while outlining its current limitations. All datasets and models are released to enable reproducibility and further research.
- Abstract(参考訳): 直接選好最適化(Direct Preference Optimization, DPO)は、明示的な報奨モデルの必要性を回避し、選好データに基づくトレーニングにより、LLMを好ましい出力に向けて操る効率的なアライメント手法である。
その単純さにより、さまざまなドメインや安全要件への適応が容易になる。
本稿では,データ要求とトレーニングコストを最小限に抑えつつ,DPOの脱獄攻撃に対するモデル安全性の有効性について検討する。
Egidaは、27の異なる安全トピックと18の異なる攻撃スタイルを含む複数のソースから拡張されたデータセットで、合成ラベルと人間のラベルを補完する。
このデータは、最新のLLM(Llama-3.1-8B/70B-インストラクト、Qwen-2.5-7B/72B-インストラクト)のトピックや攻撃スタイルの安全性を高めるために使用される。
安全性評価に加えて, 汎用タスクにおけるアライメント後の性能劣化と, 拒絶傾向を評価する。
提案手法に従って、訓練されたモデルは、少ない計算コスト(8Bモデルでは3\$、72Bモデルでは20\$)で小さなトレーニング努力(2000サンプル)を使用して、攻撃成功率を10%-30%削減する。
安全に整合したモデルは、目に見えないトピックやアタックスタイルに一般化され、最も成功したアタックスタイルは、約5%の成功率に達する。
サイズと家族は、トレーニング前の選択の重要性を指摘して、モデルマシュアビリティーを安全性に強く影響している。
筆者らによるLlama-Guard-3-8Bとの人間嗜好合意の独立性評価を行い,関連するデータセットであるEgida-HSafeを公表した。
本研究は,DPOによるLCMの安全性を高めるとともに,現状の限界を概説する。
すべてのデータセットとモデルがリリースされ、再現性とさらなる研究を可能にする。
関連論文リスト
- Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models [24.168387024091082]
人間の好みに基づく微調整型大規模言語モデル(LLM)は,その性能向上に有効である。
微調整プロセスを通して安全性を維持することは、依然として大きな課題である。
トレーニングデータが少ない場合でも安全性を向上する平衡RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:40:30Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - SEAL: Safety-enhanced Aligned LLM Fine-tuning via Bilevel Data Selection [92.38300626647342]
SEALは、二段階最適化に基づいてデータローカを学習し、安全で高品質な微調整データをランク付けし、安全でないものや低品質なものをランク付けする。
SEALで訓練されたモデルは、複数のベースラインよりも優れた品質を示し、ランダム選択に比べて8.5%と9.7%の勝利率が上昇した。
論文 参考訳(メタデータ) (2024-10-09T22:24:22Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Alignment with Preference Optimization Is All You Need for LLM Safety [5.063347837245749]
安全性データセットを用いたFalcon 11Bモデルに様々なアライメント手法を適用した。
我々は,LlamaGuard 3 8Bによる世界安全スコアの大幅な向上を実現し,最先端のモデルと競合する。
しかし、この安全性の向上は、特に数学において、一般的な能力を低下させるコストが伴う。
論文 参考訳(メタデータ) (2024-09-12T06:10:15Z) - SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
本稿では,モデル自体が生成したデータを活用することで,セキュリティを向上させるための最適化フレームワークであるmathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)について紹介する。
論文 参考訳(メタデータ) (2024-08-05T16:55:06Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models [51.85781332922943]
フェデレートラーニング(FL)は、複数のパーティが直接データ共有を必要とせずに、共同で大きな言語モデル(LLM)を微調整することを可能にする。
我々は、シンプルでステルス的で効果的な安全攻撃手法を提案することにより、FedITにおける安全性アライメントの脆弱性を初めて明らかにした。
論文 参考訳(メタデータ) (2024-06-15T13:24:22Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。