論文の概要: Revoking Amnesia: RL-based Trajectory Optimization to Resurrect Erased Concepts in Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.03302v1
- Date: Tue, 30 Sep 2025 07:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.733559
- Title: Revoking Amnesia: RL-based Trajectory Optimization to Resurrect Erased Concepts in Diffusion Models
- Title(参考訳): Revoking Amnesia: RL-based Trajectory Optimization to Resurrect Erased Concepts in Diffusion Models
- Authors: Daiheng Gao, Nanxiang Jiang, Andi Zhang, Shilin Lu, Yufei Tang, Wenbo Zhou, Weiming Zhang, Zhaoxin Fan,
- Abstract要約: 概念消去技術は、安全と著作権の観点から不適切なコンテンツ生成を防止するため、T2I拡散モデルに広く展開されている。
確立された消去方法は 劣化した効果を示し 真のメカニズムに関する疑問を提起する
提案するトラジェクトリ最適化フレームワークである textbfRevAm は,デノナイジング過程を動的に操ることで,消去された概念を復活させる。
- 参考スコア(独自算出の注目度): 38.38751366738881
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Concept erasure techniques have been widely deployed in T2I diffusion models to prevent inappropriate content generation for safety and copyright considerations. However, as models evolve to next-generation architectures like Flux, established erasure methods (\textit{e.g.}, ESD, UCE, AC) exhibit degraded effectiveness, raising questions about their true mechanisms. Through systematic analysis, we reveal that concept erasure creates only an illusion of ``amnesia": rather than genuine forgetting, these methods bias sampling trajectories away from target concepts, making the erasure fundamentally reversible. This insight motivates the need to distinguish superficial safety from genuine concept removal. In this work, we propose \textbf{RevAm} (\underline{Rev}oking \underline{Am}nesia), an RL-based trajectory optimization framework that resurrects erased concepts by dynamically steering the denoising process without modifying model weights. By adapting Group Relative Policy Optimization (GRPO) to diffusion models, RevAm explores diverse recovery trajectories through trajectory-level rewards, overcoming local optima that limit existing methods. Extensive experiments demonstrate that RevAm achieves superior concept resurrection fidelity while reducing computational time by 10$\times$, exposing critical vulnerabilities in current safety mechanisms and underscoring the need for more robust erasure techniques beyond trajectory manipulation.
- Abstract(参考訳): 概念消去技術は、安全と著作権の観点から不適切なコンテンツ生成を防止するため、T2I拡散モデルに広く展開されている。
しかし、モデルがFluxのような次世代アーキテクチャに進化するにつれて、確立された消去方法(\textit{e g }, ESD, UCE, AC)は劣化した効果を示し、それらの真のメカニズムについて疑問を投げかける。
組織的な分析により,概念消去は「アムネシア」の錯覚を生じさせるのみであることが明らかとなった。
この洞察は、表面上の安全と真の概念の除去を区別する必要性を動機付けている。
本稿では, モデル重みを変更することなくデノナイジング過程を動的に操り, 消去された概念を復活させる, RL ベースの軌道最適化フレームワークである \textbf{RevAm} (\underline{Rev}oking \underline{Am}nesia) を提案する。
グループ相対政策最適化(GRPO)を拡散モデルに適用することにより、RevAmは軌道レベルの報酬を通じて様々な回復軌道を探索し、既存の方法を制限する局所最適化を克服する。
大規模な実験では、RevAmは計算時間を10$\times$に減らし、現在の安全メカニズムの重大な脆弱性を明らかにし、軌道操作以上の堅牢な消去技術の必要性を強調しながら、優れた概念復活忠実性を達成している。
関連論文リスト
- Erased, But Not Forgotten: Erased Rectified Flow Transformers Still Remain Unsafe Under Concept Attack [37.88516477305766]
本稿では,最新のフローベースT2Iフレームワークにおいて,概念消去の堅牢性を評価するために設計された最初の概念攻撃手法であるReFluxを提案する。
我々のアプローチは、既存の概念消去技術が Flux に適用された場合、基本的にはアテンションローカライゼーションとして知られる現象に依存しているという観察に動機づけられている。
論文 参考訳(メタデータ) (2025-10-01T08:12:07Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models [0.0]
概念消去は、生成モデルにおいて特定の概念情報を削除または抑制することを目的としている。
Trajectory-Constrained Attentional Concept Erasure (TRACE) は拡散モデルから対象概念を消去する新しい手法である。
TRACEは最先端のパフォーマンスを実現し、ANT、EraseAnything、MACEといった最近の手法よりも、除去効率と出力品質の点で優れています。
論文 参考訳(メタデータ) (2025-05-29T10:15:22Z) - Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.35484513848296]
本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-17T23:17:16Z) - Rethinking the Vulnerability of Concept Erasure and a New Method [9.044763606650646]
概念消去 (defense) 法は、ポストホック微調整によって特定の概念を「未学習」するために開発された。
最近の概念復元(アタック)手法は、これら消去されたと思われる概念を、逆向きのプロンプトで復元できることを実証している。
本稿では,従来の修復手法を最大17.8倍に向上させる新しい座標descentベースの復元アルゴリズムである**RECORD*を紹介する。
論文 参考訳(メタデータ) (2025-02-24T17:26:01Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。