論文の概要: Whispers in the Noise: Surrogate-Guided Concept Awakening via a Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2605.18150v1
- Date: Mon, 18 May 2026 09:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.295195
- Title: Whispers in the Noise: Surrogate-Guided Concept Awakening via a Multi-Agent Framework
- Title(参考訳): 騒音のささやき:マルチエージェント・フレームワークによるサロゲート誘導概念の覚醒
- Authors: Mengyu Sun, Ziyuan Yang, Zunlong Zhou, Junxu Liu, Haibo Hu, Yi Zhang,
- Abstract要約: 概念消去は、事前訓練されたモデルから特定の概念を取り除くことでリスクを軽減することを目的としている。
近年の研究では、そのような手法は標的概念を完全に排除するのではなく、しばしば抑制され、攻撃を起こさないモデルが残されていることが示されている。
提案するConceptAgentは,サロゲート誘導ノイズ状態から発声軌道を初期化することにより,消去概念を覚醒させる,トレーニングフリーでブラックボックスなマルチエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 10.018906972154218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) are widely used for text-to-image generation, but their strong generative capabilities also raise concerns about unsafe or undesirable content. Concept erasure aims to mitigate these risks by removing specific concepts from pretrained models. However, recent studies show that such methods often suppress rather than fully eliminate target concepts, leaving models vulnerable to awakening attacks. Existing approaches primarily rely on white-box access through optimization or inversion, while concept awakening under black-box constraints remains underexplored. In this work, we revisit the denoising process from a trajectory perspective and show that concept erasure mainly disrupts early-stage text-semantic alignment but does not fully prevent semantic information from propagating along the denoising dynamics. As generation proceeds, the model increasingly depends on the evolving noisy state rather than textual conditions, which creates an opportunity to bypass erased mappings. Motivated by this observation, we propose ConceptAgent, a training-free, black-box, multi-agent framework that awakens erased concepts by initializing the denoising trajectory from surrogate-guided noisy states. Extensive experiments demonstrate that ConceptAgent enables accurate and controllable awakening of erased concepts under black-box settings without access to model parameters, gradients, or internal representations. These results highlight fundamental limitations of current concept erasure methods and provide new insights into the dynamic nature of semantic control in DMs.
- Abstract(参考訳): 拡散モデル(DM)はテキスト・画像生成に広く用いられているが、その強力な生成能力は、安全でないコンテンツや望ましくないコンテンツに対する懸念も引き起こす。
概念消去は、事前訓練されたモデルから特定の概念を取り除くことで、これらのリスクを軽減することを目的としている。
しかし、近年の研究では、そのような手法は標的概念を完全に排除するのではなく、しばしば抑制され、攻撃を起こさないようにモデルが脆弱であることが示されている。
既存のアプローチは主に最適化や逆転によるホワイトボックスアクセスに依存しているが、ブラックボックスの制約の下で起きる概念は未検討のままである。
本研究は, 軌道論的観点からの認知過程を再考し, 概念の消去が早期のテキスト・セマンティックアライメントを阻害するが, 意味情報の伝播を完全には妨げないことを示す。
生成が進むにつれて、モデルはテキストの条件ではなく、進化するノイズ状態に依存するようになり、消去されたマッピングをバイパスする機会が生まれる。
この観察に動機づけられたConceptAgentは、サロゲート誘導ノイズ状態からデノベーション軌道を初期化することにより、消去概念を覚醒させるトレーニングフリーでブラックボックス、マルチエージェントフレームワークである。
大規模な実験により、ConceptAgentはモデルパラメータ、勾配、内部表現へのアクセスなしに、ブラックボックス設定下で消去された概念の正確かつ制御可能な起動を可能にした。
これらの結果は、現在の概念消去法の基本的限界を強調し、DMにおける意味制御の動的な性質に関する新たな洞察を提供する。
関連論文リスト
- TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models [92.56562999211809]
テキスト中心のパラダイムは、消去とテキスト・ツー・イメージマッピングの厳密さを同一視し、望ましくない概念に関する基礎となる視覚的知識が今も続いていることを無視する。
我々は、この視覚のみのプローブをNull-text条件下で動作させることで、新しいテキストフリーのインバージョンアタックであるTinaを紹介する。
我々の実験では、Tinaは最先端の未学習モデルから消去された概念を再生することを示した。
論文 参考訳(メタデータ) (2026-03-18T15:25:03Z) - Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection [7.863370847022858]
本稿では,テキストエンコーダにおけるハイレベルな意味表現を指定されたベクトルに対して誤って誘導するハイレベル表現ミスダイレクト(HiRM)を提案する。
我々の戦略は、無関係な概念に対する最小限の影響で正確な概念除去を可能にする。
また、HIRMは、低コストで生成ユーティリティを保存し、Fluxのような最先端のアーキテクチャに追加のトレーニングなしで移行し、デノイザベースの概念消去手法と相乗効果を示す。
論文 参考訳(メタデータ) (2026-02-23T09:18:27Z) - Differential Vector Erasure: Unified Training-Free Concept Erasure for Flow Matching Models [49.10620605347065]
本研究では,フローマッチングモデルに特化して設計されたトレーニング不要な概念消去手法である差分ベクトル消去(DVE)を提案する。
我々の重要な洞察は、意味論的概念は生成フローを管理する速度場の方向構造に暗黙的に符号化されていることである。
推論中、DVEは速度場を微分方向に投影することで概念固有の成分を選択的に除去し、無関係な意味論に影響を与えることなく正確な概念抑圧を可能にする。
論文 参考訳(メタデータ) (2026-02-01T08:05:45Z) - Revoking Amnesia: RL-based Trajectory Optimization to Resurrect Erased Concepts in Diffusion Models [38.38751366738881]
概念消去技術は、安全と著作権の観点から不適切なコンテンツ生成を防止するため、T2I拡散モデルに広く展開されている。
確立された消去方法は 劣化した効果を示し 真のメカニズムに関する疑問を提起する
提案するトラジェクトリ最適化フレームワークである textbfRevAm は,デノナイジング過程を動的に操ることで,消去された概念を復活させる。
論文 参考訳(メタデータ) (2025-09-30T07:46:19Z) - TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models [0.0]
概念消去は、生成モデルにおいて特定の概念情報を削除または抑制することを目的としている。
Trajectory-Constrained Attentional Concept Erasure (TRACE) は拡散モデルから対象概念を消去する新しい手法である。
TRACEは最先端のパフォーマンスを実現し、ANT、EraseAnything、MACEといった最近の手法よりも、除去効率と出力品質の点で優れています。
論文 参考訳(メタデータ) (2025-05-29T10:15:22Z) - Erased or Dormant? Rethinking Concept Erasure Through Reversibility [6.895055915600732]
我々は、統一概念編集と消去安定拡散という2つの代表的な概念消去手法を評価する。
消去された概念は、最小限の適応の後、しばしばかなりの視覚的忠実度で再帰することを示す。
本研究は,既存の概念消去アプローチにおける限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-22T03:26:46Z) - Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.35484513848296]
本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-17T23:17:16Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。