論文の概要: EraseFlow: Learning Concept Erasure Policies via GFlowNet-Driven Alignment
- arxiv url: http://arxiv.org/abs/2511.00804v1
- Date: Sun, 02 Nov 2025 04:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.941488
- Title: EraseFlow: Learning Concept Erasure Policies via GFlowNet-Driven Alignment
- Title(参考訳): EraseFlow: GFlowNet駆動アライメントによる概念消去ポリシの学習
- Authors: Abhiram Kusumba, Maitreya Patel, Kyle Min, Changhoon Kim, Chitta Baral, Yezhou Yang,
- Abstract要約: 強力なテキストからイメージジェネレータへの有害あるいはプロプライエタリな概念の消去は、新たな安全要件である。
このフレームワークは、概念の学習を、道の認知という空間における探索として活用する最初のフレームワークです。
単一エンド状態ではなく、すべてのトラジェクトリをサンプリングすることによって、EraseFlowは、モデルの事前を維持しながら、ターゲット概念から生成を分離するポリシーを学ぶ。
- 参考スコア(独自算出の注目度): 64.14005054816998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Erasing harmful or proprietary concepts from powerful text to image generators is an emerging safety requirement, yet current "concept erasure" techniques either collapse image quality, rely on brittle adversarial losses, or demand prohibitive retraining cycles. We trace these limitations to a myopic view of the denoising trajectories that govern diffusion based generation. We introduce EraseFlow, the first framework that casts concept unlearning as exploration in the space of denoising paths and optimizes it with GFlowNets equipped with the trajectory balance objective. By sampling entire trajectories rather than single end states, EraseFlow learns a stochastic policy that steers generation away from target concepts while preserving the model's prior. EraseFlow eliminates the need for carefully crafted reward models and by doing this, it generalizes effectively to unseen concepts and avoids hackable rewards while improving the performance. Extensive empirical results demonstrate that EraseFlow outperforms existing baselines and achieves an optimal trade off between performance and prior preservation.
- Abstract(参考訳): 強力なテキストからイメージジェネレータへの有害なあるいはプロプライエタリな概念の消去は、新たな安全要件である。
我々はこれらの制限を拡散に基づく生成を統制する妄想的軌跡のミオピックな視点に辿り着く。
このフレームワークは、学習を非学習とみなす最初のフレームワークであり、軌道バランスの目的を備えたGFlowNetsでこれを最適化する。
単一終端状態ではなく、すべてのトラジェクトリをサンプリングすることで、EraseFlowは、モデルの事前を保ちながらターゲット概念から生成する確率的なポリシーを学ぶ。
EraseFlowは、慎重に構築された報酬モデルの必要性を排除し、これを行うことで、見つからない概念を効果的に一般化し、パフォーマンスを改善しながらハック可能な報酬を回避する。
大規模な実験結果から,EraseFlowは既存のベースラインより優れており,パフォーマンスと事前保存のトレードオフが最適であることが示された。
関連論文リスト
- Towards Resilient Safety-driven Unlearning for Diffusion Models against Downstream Fine-tuning [24.176983833455413]
テキスト・ツー・イメージ(T2I)拡散モデルは、印象的な画像生成品質を達成し、パーソナライズされたアプリケーション向けに微調整されている。
これらのモデルはしばしば有毒な事前訓練データから安全でない行動を継承し、安全性の懸念が高まる。
本稿では、下流の微調整に対するレジリエンスを高める安全駆動型アンラーニングフレームワークResAlignを提案する。
論文 参考訳(メタデータ) (2025-07-22T07:40:16Z) - ZeroFlow: Overcoming Catastrophic Forgetting is Easier than You Think [22.333776599402754]
我々はZeroFlowを紹介した。ZeroFlowはグラデーションのない最適化アルゴリズムを設計した最初のベンチマークである。
以上の結果から,フォワードパスだけでは,忘れを軽減できる可能性が示唆された。
本稿では,フォワードパスのみを用いて,抵抗の忘れ方を改善する新しい拡張を提案する。
論文 参考訳(メタデータ) (2025-01-02T04:10:17Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - DeFlow: Learning Complex Image Degradations from Unpaired Data with
Conditional Flows [145.83812019515818]
本論文では,不対データから画像劣化を学習するDeFlowを提案する。
共有フローデコーダネットワークの潜在空間における劣化過程をモデル化する。
共同画像復元と超解像におけるDeFlowの定式化を検証した。
論文 参考訳(メタデータ) (2021-01-14T18:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。