論文の概要: FlowErase-RL: Rethinking Concept Erasure as Reward Optimization in Flow Matching Models
- arxiv url: http://arxiv.org/abs/2605.19739v1
- Date: Tue, 19 May 2026 12:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.31973
- Title: FlowErase-RL: Rethinking Concept Erasure as Reward Optimization in Flow Matching Models
- Title(参考訳): FlowErase-RL:フローマッチングモデルにおける逆最適化としての概念消去を再考する
- Authors: Yi Sun, Zhiqi Zhang, Xinhao Zhong, Yimin Zhou, Shuoyang Sun, Bin Chen, Shu-Tao Xia, Ke Xu,
- Abstract要約: フローマッチングモデルでは、テキストから画像への生成品質が大幅に向上しただけでなく、安全性が向上した。
フローマッチングモデルにおける概念消去のための最初のGRPOベースのフレームワークであるemphFlowErase-RLを提案する。
本研究では,画像品質とセマンティックアライメントを維持しつつ,最先端の消去性能を実現する方法を示す。
- 参考スコア(独自算出の注目度): 47.80885954469943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in flow matching models have significantly improved text-to-image generation quality, but also introduce growing safety risks due to the generation of harmful or undesirable content. Existing concept erasure methods are either inference-time interventions with limited effectiveness or rely on supervised fine-tuning (SFT), which requires precisely aligned data and struggles with scalability and multi-concept settings. In this paper, we propose \emph{FlowErase-RL}, the first GRPO-based framework for concept erasure in flow matching models. We reformulate concept erasure as a reward optimization problem and introduce a \textbf{dynamic dual-path reward mechanism} that jointly optimizes (i) a Concept Erasure (CE) reward to suppress target concepts and (ii) a Non-target Space (NS) reward to preserve generative fidelity. The two reward paths are adaptively balanced during training via a performance-driven switching strategy, enabling stable optimization without explicit supervision. Extensive experiments on nudity, object, and artistic style erasure demonstrate that our method achieves state-of-the-art erasure performance while maintaining strong image quality and semantic alignment. Moreover, it exhibits robust resistance to adversarial attacks and scales effectively to multi-concept scenarios. Our results establish a new paradigm for safe and controllable generation in flow matching models.
- Abstract(参考訳): 近年のフローマッチングモデルの進歩により,テキスト・画像生成の品質が大幅に向上する一方で,有害なコンテンツや望ましくないコンテンツの生成による安全性の増大ももたらされている。
既存の概念消去手法は、限られた有効性を持つ推論時の介入か、正確に整合したデータを必要とする教師付き微調整(SFT)に依存しており、スケーラビリティとマルチコンセプト設定に苦慮している。
本稿では,フローマッチングモデルにおける概念消去のための最初のGRPOベースのフレームワークである \emph{FlowErase-RL} を提案する。
我々は、報酬最適化問題として概念消去を再構成し、共同で最適化する \textbf{dynamic dual-path reward mechanism} を導入する。
一 目標概念を抑えるための概念消去(CE)報酬
(二 生成的忠実性を維持するための非目標空間(NS)報酬
2つの報酬経路は、パフォーマンス駆動のスイッチング戦略を通じてトレーニング中に適応的にバランスを取り、明示的な監督なしに安定した最適化を可能にする。
本手法は画像品質とセマンティックアライメントを維持しつつ, 最先端の消去性能を実現することを実証した。
さらに、敵攻撃に対する堅牢な抵抗を示し、マルチコンセプトシナリオに効果的にスケールする。
その結果,フローマッチングモデルにおける安全かつ制御可能な生成のための新しいパラダイムが確立された。
関連論文リスト
- Closed-Form Concept Erasure via Double Projections [8.357438653110973]
概念消去は、生成モデルから望ましくない概念を取り除くプロセスである。
本稿では, 学習を伴わずに, 概念消去を解析的に実現する線形変換フレームワークを提案する。
我々の設計は、安全、効率的、理論に基づく概念除去のための決定論的かつ幾何学的に解釈可能な手順をもたらす。
論文 参考訳(メタデータ) (2026-04-11T05:06:15Z) - EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization [18.80236205171204]
EraseAnything++は、画像拡散モデルとビデオ拡散モデルの両方において概念消去のための統一されたフレームワークである。
本手法は,鍵となる視覚的表現を消去し,空間的・時間的次元にわたって一貫した伝播を行う。
ビデオ設定では、アンカー・アンド・プロパゲート機構により、参照フレームの消去を初期化し、その後のトランスフォーマー層を通して強制する一貫性をさらに強化する。
論文 参考訳(メタデータ) (2026-03-01T08:13:05Z) - CGCE: Classifier-Guided Concept Erasure in Generative Models [53.7410000675294]
概念消去は、事前訓練されたモデルから望ましくない概念を取り除くために開発された。
既存の方法は、削除されたコンテンツを再生できる敵攻撃に弱いままである。
多様な生成モデルに対して堅牢な概念消去を提供する効率的なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-08T05:38:18Z) - Revoking Amnesia: RL-based Trajectory Optimization to Resurrect Erased Concepts in Diffusion Models [38.38751366738881]
概念消去技術は、安全と著作権の観点から不適切なコンテンツ生成を防止するため、T2I拡散モデルに広く展開されている。
確立された消去方法は 劣化した効果を示し 真のメカニズムに関する疑問を提起する
提案するトラジェクトリ最適化フレームワークである textbfRevAm は,デノナイジング過程を動的に操ることで,消去された概念を復活させる。
論文 参考訳(メタデータ) (2025-09-30T07:46:19Z) - Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness [4.23067546195708]
textbfSCORE (Secure and Concept-Oriented Robust Erasure)は拡散モデルにおけるロバストな概念除去のための新しいフレームワークである。
SCOREは拡散モデルにおける安全で堅牢な概念消去のための新しい標準を定めている。
論文 参考訳(メタデータ) (2025-09-15T15:05:50Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models [56.83154571623655]
モデルパラメータを直接編集する効率的な概念消去手法であるSPEEDを導入する。
Speedyは、パラメータ更新がターゲット以外の概念に影響しないモデル編集スペースであるnullスペースを検索する。
たった5秒で100のコンセプトを消去しました。
論文 参考訳(メタデータ) (2025-03-10T14:40:01Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。