論文の概要: Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training
- arxiv url: http://arxiv.org/abs/2502.11455v1
- Date: Mon, 17 Feb 2025 05:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:06.846875
- Title: Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training
- Title(参考訳): Adversary-Aware DPO: 対人訓練による視覚言語モデルの安全性向上
- Authors: Fenghua Weng, Jian Lou, Jun Feng, Minlie Huang, Wenjie Wang,
- Abstract要約: 本稿では,相手を意識した新しいトレーニングフレームワークである$textitAdversary-Aware DPO (ADPO)$を提案する。
$textitADPO$は、相手のトレーニングをDPOに統合し、最悪の対向的摂動の下でのVLMの安全性アライメントを強化する。
$textitADPO$は、高度なジェイルブレイク攻撃があっても、VLMが堅牢で信頼性を保つことを保証します。
- 参考スコア(独自算出の注目度): 50.829723203044395
- License:
- Abstract: Safety alignment is critical in pre-training large language models (LLMs) to generate responses aligned with human values and refuse harmful queries. Unlike LLM, the current safety alignment of VLMs is often achieved with post-hoc safety fine-tuning. However, these methods are less effective to white-box attacks. To address this, we propose $\textit{Adversary-aware DPO (ADPO)}$, a novel training framework that explicitly considers adversarial. $\textit{Adversary-aware DPO (ADPO)}$ integrates adversarial training into DPO to enhance the safety alignment of VLMs under worst-case adversarial perturbations. $\textit{ADPO}$ introduces two key components: (1) an adversarial-trained reference model that generates human-preferred responses under worst-case perturbations, and (2) an adversarial-aware DPO loss that generates winner-loser pairs accounting for adversarial distortions. By combining these innovations, $\textit{ADPO}$ ensures that VLMs remain robust and reliable even in the presence of sophisticated jailbreak attacks. Extensive experiments demonstrate that $\textit{ADPO}$ outperforms baselines in the safety alignment and general utility of VLMs.
- Abstract(参考訳): 安全性アライメントは、人間の値に一致した応答を生成し、有害なクエリを拒否する大規模な言語モデル(LLM)を事前訓練する上で重要である。
LLMとは異なり、VLMの現在の安全アライメントは、しばしばポストホック安全性の微調整によって達成される。
しかし、これらの手法はホワイトボックス攻撃に対して効果が低い。
この問題に対処するために、我々は、逆境を明示的に考慮した新しいトレーニングフレームワークである$\textit{Adversary-aware DPO (ADPO)$を提案する。
$\textit{Adversary-aware DPO (ADPO)}$は、最悪の対向的摂動下でのVLMの安全アライメントを強化するために、DPOに敵のトレーニングを統合する。
例えば,(1)最悪の場合の摂動下で人間が優先する応答を生成する対向学習参照モデル,(2)逆向歪みを考慮した対向学習ペアを生成する対向学習DPO損失である。
これらのイノベーションを組み合わせることで、$\textit{ADPO}$は、高度なジェイルブレイク攻撃があっても、VLMが堅牢で信頼性を保つことを保証します。
大規模な実験により、$\textit{ADPO}$ は VLM の安全性アライメントと汎用性においてベースラインを上回っていることが示された。
関連論文リスト
- ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。