論文の概要: ReLAPSe: Reinforcement-Learning-trained Adversarial Prompt Search for Erased concepts in unlearned diffusion models
- arxiv url: http://arxiv.org/abs/2602.00350v1
- Date: Fri, 30 Jan 2026 21:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.130069
- Title: ReLAPSe: Reinforcement-Learning-trained Adversarial Prompt Search for Erased concepts in unlearned diffusion models
- Title(参考訳): ReLAPSe:Reinforcement-Learning-Learning-trained Adversarial Prompt Search for Erased concept in unlearned diffusion model
- Authors: Ignacy Kolton, Kacper Marzol, Paweł Batorski, Marcin Mazur, Paul Swoboda, Przemysław Spurek,
- Abstract要約: マシン・アンラーニングは、テキスト・ツー・イメージ拡散モデルから不正な概念を取り除くための鍵となる防御メカニズムである。
この漏洩を悪用する既存の敵のアプローチは、基本的な制限によって制約される。
本稿では,ReLAPSeについて紹介する。ReLAPSeは,概念回復を強化学習問題として再編成する政策ベースの敵対的枠組みである。
- 参考スコア(独自算出の注目度): 12.021923446217722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning is a key defense mechanism for removing unauthorized concepts from text-to-image diffusion models, yet recent evidence shows that latent visual information often persists after unlearning. Existing adversarial approaches for exploiting this leakage are constrained by fundamental limitations: optimization-based methods are computationally expensive due to per-instance iterative search. At the same time, reasoning-based and heuristic techniques lack direct feedback from the target model's latent visual representations. To address these challenges, we introduce ReLAPSe, a policy-based adversarial framework that reformulates concept restoration as a reinforcement learning problem. ReLAPSe trains an agent using Reinforcement Learning with Verifiable Rewards (RLVR), leveraging the diffusion model's noise prediction loss as a model-intrinsic and verifiable feedback signal. This closed-loop design directly aligns textual prompt manipulation with latent visual residuals, enabling the agent to learn transferable restoration strategies rather than optimizing isolated prompts. By pioneering the shift from per-instance optimization to global policy learning, ReLAPSe achieves efficient, near-real-time recovery of fine-grained identities and styles across multiple state-of-the-art unlearning methods, providing a scalable tool for rigorous red-teaming of unlearned diffusion models. Some experimental evaluations involve sensitive visual concepts, such as nudity. Code is available at https://github.com/gmum/ReLaPSe
- Abstract(参考訳): マシン・アンラーニングは、テキスト・ツー・イメージ拡散モデルから不正な概念を取り除くための鍵となる防御メカニズムである。
最適化に基づく手法は、インスタンスごとの反復探索によって計算コストがかかる。
同時に、推論に基づくヒューリスティックな手法は、ターゲットモデルの潜在的な視覚的表現からの直接的なフィードバックを欠いている。
これらの課題に対処するため、ReLAPSeは、概念回復を強化学習問題として再編成する政策ベースの敵対的枠組みである。
ReLAPSeはReinforcement Learning with Verifiable Rewards (RLVR) を用いてエージェントを訓練し、拡散モデルのノイズ予測損失をモデル固有かつ検証可能なフィードバック信号として活用する。
このクローズドループ設計は、テキストによるプロンプト操作と遅延した視覚的残差を直接整列させ、エージェントは孤立したプロンプトを最適化するのではなく、転送可能な復元戦略を学習することができる。
インスタンスごとの最適化からグローバルなポリシー学習への移行の先駆けとして、ReLAPSeは、複数の最先端の未学習メソッドにまたがる、きめ細かなアイデンティティとスタイルの効率的なほぼリアルタイム回復を実現し、未学習の拡散モデルの厳密なリピートのためのスケーラブルなツールを提供する。
いくつかの実験的評価は、ヌードのような繊細な視覚概念を含む。
コードはhttps://github.com/gmum/ReLaPSeで入手できる。
関連論文リスト
- Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文 参考訳(メタデータ) (2026-03-05T04:45:49Z) - Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models [7.17300076441681]
SurgUnは、テキスト条件の拡散モデルで特定の視覚的概念を取り除くために、目標の重量空間更新を適用する外科的アンラーニング手法である。
我々のアプローチは、新たに獲得した記憶が以前の記憶へのアクセスを上書き、抑制、妨げることができるという、遡及的干渉理論によって動機付けられている。
我々は、この原理をレトロアクティブな概念干渉を誘導することにより拡散モデルに適用し、対象概念のみの集中的不安定化を可能にする。
論文 参考訳(メタデータ) (2026-03-01T08:07:14Z) - Critic-Guided Reinforcement Unlearning in Text-to-Image Diffusion [0.0]
テキストから画像への拡散モデルにおける機械学習は、全体的な有用性を保ちながらターゲットとなる概念を取り除くことを目的としている。
本稿では,難読化を逐次決定過程として扱う拡散アンラーニングのための一般的なRLフレームワークを提案する。
我々のアルゴリズムは実装が簡単で、非政治的な再利用をサポートし、標準のテキスト・ツー・イメージのバックボーンにプラグインする。
論文 参考訳(メタデータ) (2026-01-06T17:52:02Z) - Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。
本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。
文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文 参考訳(メタデータ) (2025-12-24T07:07:08Z) - Revoking Amnesia: RL-based Trajectory Optimization to Resurrect Erased Concepts in Diffusion Models [38.38751366738881]
概念消去技術は、安全と著作権の観点から不適切なコンテンツ生成を防止するため、T2I拡散モデルに広く展開されている。
確立された消去方法は 劣化した効果を示し 真のメカニズムに関する疑問を提起する
提案するトラジェクトリ最適化フレームワークである textbfRevAm は,デノナイジング過程を動的に操ることで,消去された概念を復活させる。
論文 参考訳(メタデータ) (2025-09-30T07:46:19Z) - LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling [38.700993166492495]
本稿では,事前学習した潜伏拡散モデルを用いた再帰サンプリングによるデータセットフリーで統一的な手法を提案する。
本手法では,マルチモーダル理解モデルを用いて,タスクブレンド条件下で生成モデルにセマンティックな事前情報を提供する。
論文 参考訳(メタデータ) (2025-07-01T14:25:09Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models [7.9993879763024065]
本稿では,拡散モデルにおける未学習の5つの手法の理論的,実証的研究について述べる。
概念検索スコア(textbfCRS)と概念信頼スコア(textbfCCS)の2つの新しい評価指標を導入する。
論文 参考訳(メタデータ) (2024-09-09T14:38:31Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - Diffusion Models for Image Restoration and Enhancement: A Comprehensive Survey [73.86861112002593]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。