論文の概要: REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models
- arxiv url: http://arxiv.org/abs/2603.16576v1
- Date: Tue, 17 Mar 2026 14:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.336918
- Title: REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models
- Title(参考訳): REFORGE:画像生成モデルにおけるマルチモーダル・アタック
- Authors: Yong Zou, Haoran Li, Fanxiao Li, Shenyang Wei, Yunyun Dong, Li Tang, Wei Zhou, Renyang Liu,
- Abstract要約: 画像生成モデル(IGM)の最近の進歩は、高忠実度コンテンツ作成を可能にするが、リスクを増幅する。
IGMUは、完全な再訓練なしに有害な概念を除去することで、これらのリスクを軽減する。
本稿では,逆画像プロンプトによるIGMU堅牢性を評価するフレームワークREFORGEを提案する。
- 参考スコア(独自算出の注目度): 11.940673002446138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in image generation models (IGMs) enables high-fidelity content creation but also amplifies risks, including the reproduction of copyrighted content and the generation of offensive content. Image Generation Model Unlearning (IGMU) mitigates these risks by removing harmful concepts without full retraining. Despite growing attention, the robustness under adversarial inputs, particularly image-side threats in black-box settings, remains underexplored. To bridge this gap, we present REFORGE, a black-box red-teaming framework that evaluates IGMU robustness via adversarial image prompts. REFORGE initializes stroke-based images and optimizes perturbations with a cross-attention-guided masking strategy that allocates noise to concept-relevant regions, balancing attack efficacy and visual fidelity. Extensive experiments across representative unlearning tasks and defenses demonstrate that REFORGE significantly improves attack success rate while achieving stronger semantic alignment and higher efficiency than involved baselines. These results expose persistent vulnerabilities in current IGMU methods and highlight the need for robustness-aware unlearning against multi-modal adversarial attacks. Our code is at: https://github.com/Imfatnoily/REFORGE.
- Abstract(参考訳): 画像生成モデル(IGM)の最近の進歩は、高忠実なコンテンツ作成を可能にするだけでなく、著作権のあるコンテンツの再生や攻撃的なコンテンツの生成といったリスクも増幅している。
画像生成モデルアンラーニング(IGMU)は、これらリスクを軽減し、完全な再トレーニングなしに有害な概念を除去する。
注目度は高まっているが、敵の入力による堅牢性、特にブラックボックスの設定における画像側の脅威は、まだ探索されていない。
このギャップを埋めるために、敵画像プロンプトによるIGMU堅牢性を評価するブラックボックスレッドチームフレームワークであるREFORGEを提案する。
REFORGEは、ストロークベースのイメージを初期化し、概念関連領域にノイズを割り当て、攻撃効果と視覚的忠実さのバランスをとるクロスアテンション誘導マスキング戦略で摂動を最適化する。
その結果,REFORGEは攻撃成功率を有意に向上し,セマンティックアライメントの強化と,関連するベースラインよりも高い効率を達成できた。
これらの結果は、現在のIGMUメソッドの永続的な脆弱性を明らかにし、マルチモーダル攻撃に対する堅牢性を認識しないアンラーニングの必要性を強調している。
私たちのコードは以下の通りです。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - Active Adversarial Noise Suppression for Image Forgery Localization [56.98050814363447]
本稿では、敵騒音の攻撃効果を抑制するために、防御的摂動を発生させる敵騒音抑制モジュール(ANSM)を提案する。
我々の知る限りでは、画像フォージェリローカライゼーションタスクにおける敵対的防御の報告としてはこれが初めてである。
論文 参考訳(メタデータ) (2025-06-15T14:53:27Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - ExtremeAIGC: Benchmarking LMM Vulnerability to AI-Generated Extremist Content [3.6802208575951925]
我々は,AI生成した極端コンテンツに対するモデル脆弱性を評価するために設計されたベンチマークデータセットと評価フレームワークExtremeAIGCを紹介する。
ExtremeAIGCは、最先端の画像生成技術を用いて、さまざまなテキストおよび画像ベースのサンプルをキュレートすることで、現実世界のイベントと悪意のあるユースケースをシミュレートする。
我々の研究は、LMMの深刻な弱点を明らかにし、最先端の安全対策でさえ過激派物質の発生を防げないことを示した。
論文 参考訳(メタデータ) (2025-03-13T02:10:29Z) - Adversarial Purification and Fine-tuning for Robust UDC Image Restoration [25.02234305857731]
Under-Display Camera (UDC) 技術は、敵対的摂動に対する感受性によって悪化する独自の画像劣化問題に直面している。
本研究は、敵攻撃に対する堅牢性に着目し、UDC画像復元モデルの強化に焦点を当てた。
論文 参考訳(メタデータ) (2024-02-21T09:06:04Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。