論文の概要: Improving LLM Safety Alignment with Dual-Objective Optimization
- arxiv url: http://arxiv.org/abs/2503.03710v1
- Date: Wed, 05 Mar 2025 18:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 17:18:41.242527
- Title: Improving LLM Safety Alignment with Dual-Objective Optimization
- Title(参考訳): 2目的最適化によるLCMの安全性向上
- Authors: Xuandong Zhao, Will Cai, Tianneng Shi, David Huang, Licong Lin, Song Mei, Dawn Song,
- Abstract要約: 大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
- 参考スコア(独自算出の注目度): 65.41451412400609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing training-time safety alignment techniques for large language models (LLMs) remain vulnerable to jailbreak attacks. Direct preference optimization (DPO), a widely deployed alignment method, exhibits limitations in both experimental and theoretical contexts as its loss function proves suboptimal for refusal learning. Through gradient-based analysis, we identify these shortcomings and propose an improved safety alignment that disentangles DPO objectives into two components: (1) robust refusal training, which encourages refusal even when partial unsafe generations are produced, and (2) targeted unlearning of harmful knowledge. This approach significantly increases LLM robustness against a wide range of jailbreak attacks, including prefilling, suffix, and multi-turn attacks across both in-distribution and out-of-distribution scenarios. Furthermore, we introduce a method to emphasize critical refusal tokens by incorporating a reward-based token-level weighting mechanism for refusal learning, which further improves the robustness against adversarial exploits. Our research also suggests that robustness to jailbreak attacks is correlated with token distribution shifts in the training process and internal representations of refusal and harmful tokens, offering valuable directions for future research in LLM safety alignment. The code is available at https://github.com/wicai24/DOOR-Alignment
- Abstract(参考訳): 大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
直接選好最適化(DPO)は、広く展開されているアライメント手法であり、損失関数が拒絶学習に最適であることを示すため、実験と理論の両方の文脈で制限を示す。
グラデーションに基づく分析により,DPOの目的を2つの構成要素に分解する安全アライメントの改善が提案され,(1) 部分的不安全世代が生成しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習の2つの要素が提案される。
このアプローチは、プリフィル、サフィックス、マルチターンアタックを含む幅広いジェイルブレイク攻撃に対するLSMのロバスト性を大幅に向上させる。
さらに、リファレンス学習のための報酬に基づくトークンレベルの重み付け機構を組み込むことにより、批判的拒絶トークンを強調する手法を導入し、敵の攻撃に対するロバスト性をさらに向上させる。
我々の研究は、脱獄攻撃に対するロバスト性は、トレーニングプロセスにおけるトークンの分布変化と、拒絶および有害なトークンの内部表現と相関し、将来のLLM安全アライメントの研究に有用な方向を提供することを示唆している。
コードはhttps://github.com/wicai24/DOOR-Alignmentで入手できる。
関連論文リスト
- Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - SaRO: Enhancing LLM Safety through Reasoning-based Alignment [20.754670444745067]
大規模言語モデル(LLM)の現在の安全アライメント技術は、2つの大きな課題に直面している。
過度な調整は、良心的な指示の過剰な拒絶につながる。
本稿では,安全志向型推論をアライメントプロセスに組み込むための安全指向推論最適化フレームワーク(SaRO)を提案する。
論文 参考訳(メタデータ) (2025-04-13T03:36:06Z) - LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。
ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文 参考訳(メタデータ) (2025-04-02T09:21:26Z) - Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training [50.829723203044395]
本稿では,相手を意識した新しいトレーニングフレームワークである$textitAdversary-Aware DPO (ADPO)$を提案する。
$textitADPO$は、相手のトレーニングをDPOに統合し、最悪の対向的摂動の下でのVLMの安全性アライメントを強化する。
$textitADPO$は、高度なジェイルブレイク攻撃があっても、VLMが堅牢で信頼性を保つことを保証します。
論文 参考訳(メタデータ) (2025-02-17T05:28:47Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [25.212057612342218]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全性対策を回避し、有害な出力を生成するジェイルブレイク攻撃の影響を受けやすい。
この問題に対処するために,ポストアウェアフレームワークを用いたラテントスペース・アドバイザリアル・トレーニングを提案する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
LIAR(Leveraging Inference Time Alignment to jailbReak)は、ジェイルブレイク攻撃に適した高速で効率的なNのアプローチである。
その結果, 最適Nアプローチは, 整列LLMのロバスト性を評価する上で, 単純かつ高効率な戦略であることがわかった。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。