論文の概要: Enhancing Diffusion-based Unrestricted Adversarial Attacks via Adversary Preferences Alignment
- arxiv url: http://arxiv.org/abs/2506.01511v1
- Date: Mon, 02 Jun 2025 10:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.189715
- Title: Enhancing Diffusion-based Unrestricted Adversarial Attacks via Adversary Preferences Alignment
- Title(参考訳): 拡散に基づく非制限的敵攻撃の回避
- Authors: Kaixun Jiang, Zhaoyu Chen, Haijing Guo, Jinglun Li, Jiyuan Fu, Pinxue Guo, Hao Tang, Bo Li, Wenqiang Zhang,
- Abstract要約: APA(Adversary Preferences Alignment)は、競合する好みを分離し、異なる報酬でそれぞれを最適化する2段階のフレームワークである。
APAは高い視覚的整合性を保ちながら、より優れた攻撃伝達性を実現し、アライメントの観点から敵攻撃にアプローチするためのさらなる研究を促している。
- 参考スコア(独自算出の注目度): 26.95607772298534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference alignment in diffusion models has primarily focused on benign human preferences (e.g., aesthetic). In this paper, we propose a novel perspective: framing unrestricted adversarial example generation as a problem of aligning with adversary preferences. Unlike benign alignment, adversarial alignment involves two inherently conflicting preferences: visual consistency and attack effectiveness, which often lead to unstable optimization and reward hacking (e.g., reducing visual quality to improve attack success). To address this, we propose APA (Adversary Preferences Alignment), a two-stage framework that decouples conflicting preferences and optimizes each with differentiable rewards. In the first stage, APA fine-tunes LoRA to improve visual consistency using rule-based similarity reward. In the second stage, APA updates either the image latent or prompt embedding based on feedback from a substitute classifier, guided by trajectory-level and step-wise rewards. To enhance black-box transferability, we further incorporate a diffusion augmentation strategy. Experiments demonstrate that APA achieves significantly better attack transferability while maintaining high visual consistency, inspiring further research to approach adversarial attacks from an alignment perspective. Code will be available at https://github.com/deep-kaixun/APA.
- Abstract(参考訳): 拡散モデルにおける選好アライメントは主に良質な人間の嗜好(例えば美学)に焦点を当てている。
そこで,本稿では,非制限型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対向型対
良性のアライメントとは異なり、対向的なアライメントには、視覚的一貫性とアタックの有効性という、本質的に矛盾する2つの選択肢がある。
そこで本稿では、相反する選好を分離し、それぞれが異なる報酬で最適化する2段階のフレームワークであるAPA(Adversary Preferences Alignment)を提案する。
最初の段階では、APAはルールベースの類似性報酬を使用して視覚的一貫性を改善するためにLoRAを微調整する。
第2段階では、APAは、トラジェクトリレベルとステップワイドの報酬によって導かれる代用分類器からのフィードバックに基づいて、画像遅延またはプロンプト埋め込みを更新する。
ブラックボックス転送性を高めるため,拡散増強戦略をさらに取り入れた。
実験により、APAは高い視覚的整合性を維持しつつ、アライメントの観点から敵攻撃にアプローチするためのさらなる研究を行いながら、より優れた攻撃伝達性を達成することが示された。
コードはhttps://github.com/deep-kaixun/APA.comから入手できる。
関連論文リスト
- Two Heads Are Better Than One: Averaging along Fine-Tuning to Improve Targeted Transferability [20.46894437876869]
特徴空間における逆例(AE)は、目的の転送可能性を高めることができる。
既存の微調整スキームはエンドポイントのみを利用し、微調整軌道における貴重な情報を無視する。
本研究では, 細調整軌道を平均化し, 加工されたAEをより中心的な領域へ引き上げる手法を提案する。
論文 参考訳(メタデータ) (2024-12-30T09:01:27Z) - Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation [29.667702981248205]
自己校正型報酬(TPO)を用いた新しいToken Preference Optimizationモデルを提案する。
具体的には,生画像に条件付された生成トークンのロジスティック分布と劣化したトークンの対数分布の差として,トークンレベルのアンカレート・アンカレート・アンフレワードを導入する。
より正確なトークンレベルの最適化を実現するために,視覚認識型学習目標を提案する。
論文 参考訳(メタデータ) (2024-12-19T03:21:01Z) - Query-Efficient Video Adversarial Attack with Stylized Logo [17.268709979991996]
ディープニューラルネットワーク(DNN)に基づくビデオ分類システムは、敵の例に対して非常に脆弱である。
我々は Stylized Logo Attack (SLA) と呼ばれる新しいブラックボックスビデオアタックフレームワークを提案する。
SLAは3つのステップで実施される。最初のステップはロゴのスタイル参照セットを構築することであり、生成された例をより自然にするだけでなく、ターゲットとする攻撃でより多くのターゲットクラス機能を実行することができる。
論文 参考訳(メタデータ) (2024-08-22T03:19:09Z) - Improving Adversarial Robustness via Decoupled Visual Representation Masking [65.73203518658224]
本稿では,特徴分布の観点から,ロバストな特徴の2つの新しい特性を強調した。
現状の防衛手法は、上記の2つの問題にうまく対処することを目的としている。
具体的には、分離された視覚的表現マスキングに基づく、シンプルだが効果的な防御法を提案する。
論文 参考訳(メタデータ) (2024-06-16T13:29:41Z) - A Dense Reward View on Aligning Text-to-Image Diffusion with Preference [54.43177605637759]
本稿では,T2I逆鎖の初期ステップを強調する,トラクタブルアライメントの目的を提案する。
単一および複数プロンプト生成の実験では,本手法は強い関連するベースラインと競合する。
論文 参考訳(メタデータ) (2024-02-13T07:37:24Z) - Preference Poisoning Attacks on Reward Model Learning [47.00395978031771]
ペア比較による報酬モデル学習における脆弱性の性質と範囲について検討する。
本稿では,これらの攻撃に対するアルゴリズム的アプローチのクラスとして,勾配に基づくフレームワークと,ランク・バイ・ディスタンス手法のいくつかのバリエーションを提案する。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Logit Margin Matters: Improving Transferable Targeted Adversarial Attack
by Logit Calibration [85.71545080119026]
クロスエントロピー(CE)損失関数は、伝達可能な標的対向例を学習するには不十分である。
本稿では,ロジットを温度係数と適応マージンでダウンスケールすることで,ロジットのキャリブレーションを簡易かつ効果的に行う2つの手法を提案する。
ImageNetデータセットを用いて実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-03-07T06:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。