論文の概要: Lifelong Safety Alignment for Language Models
- arxiv url: http://arxiv.org/abs/2505.20259v1
- Date: Mon, 26 May 2025 17:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.355587
- Title: Lifelong Safety Alignment for Language Models
- Title(参考訳): 言語モデルのための生涯安全アライメント
- Authors: Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang,
- Abstract要約: 本稿では,脱獄防御のための生涯安全アライメントフレームワークを提案する。
メタアタッカーは、新しいジェイルブレイク戦略を積極的に発見するために訓練され、ディフェンダーは彼らに対抗するために訓練される。
我々のフレームワークはMeta-Attackerの成功率を7%に削減し、LLMのより安全で信頼性の高いデプロイを可能にします。
- 参考スコア(独自算出の注目度): 33.90238075760236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have made impressive progress, but their growing capabilities also expose them to highly flexible jailbreaking attacks designed to bypass safety alignment. While many existing defenses focus on known types of attacks, it is more critical to prepare LLMs for unseen attacks that may arise during deployment. To address this, we propose a lifelong safety alignment framework that enables LLMs to continuously adapt to new and evolving jailbreaking strategies. Our framework introduces a competitive setup between two components: a Meta-Attacker, trained to actively discover novel jailbreaking strategies, and a Defender, trained to resist them. To effectively warm up the Meta-Attacker, we first leverage the GPT-4o API to extract key insights from a large collection of jailbreak-related research papers. Through iterative training, the first iteration Meta-Attacker achieves a 73% attack success rate (ASR) on RR and a 57% transfer ASR on LAT using only single-turn attacks. Meanwhile, the Defender progressively improves its robustness and ultimately reduces the Meta-Attacker's success rate to just 7%, enabling safer and more reliable deployment of LLMs in open-ended environments. The code is available at https://github.com/sail-sg/LifelongSafetyAlignment.
- Abstract(参考訳): LLMは目覚ましい進歩を遂げていますが、その成長能力は安全性を回避すべく設計された、非常に柔軟なジェイルブレイク攻撃にも役立ちます。
多くの既存の防衛は既知のタイプの攻撃に重点を置いているが、展開中に起こりうる未確認攻撃に備える必要がある。
そこで本稿では, LLM が新しい, 進化するジェイルブレイク戦略に継続的に適応可能な, 生涯にわたる安全アライメントフレームワークを提案する。
我々のフレームワークは、新しいジェイルブレイク戦略を積極的に発見するよう訓練されたMeta-Attackerと、それに対抗するために訓練されたDefenderの2つのコンポーネント間の競争的なセットアップを導入しています。
Meta-Attackerを効果的に温めるために、まずGPT-4o APIを活用し、ジェイルブレイク関連の研究論文の集合から重要な洞察を抽出する。
反復訓練により、Meta-Attackerの最初のイテレーションはRRで73%の攻撃成功率(ASR)、LATで57%のトランスファーASRをシングルターン攻撃で達成した。
一方、Defenderは、その堅牢性を徐々に改善し、最終的にMeta-Attackerの成功率を7%に削減し、オープンエンド環境でのLLMのより安全で信頼性の高いデプロイを可能にします。
コードはhttps://github.com/sail-sg/LifelongSafetyAlignmentで公開されている。
関連論文リスト
- Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
主要なjailbreak攻撃に対して,メインストリームのGPT-3.5/4モデルを使用することを実証的に検証した。
防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization [98.18718484152595]
本研究は,学習段階と推論段階の両方において,目標の優先順位付けを統合することで,支援と安全性の確保という目標との本質的な対立に対処することを提案する。
我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。
論文 参考訳(メタデータ) (2023-11-15T16:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。