論文の概要: Erased, But Not Forgotten: Erased Rectified Flow Transformers Still Remain Unsafe Under Concept Attack
- arxiv url: http://arxiv.org/abs/2510.00635v1
- Date: Wed, 01 Oct 2025 08:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.460479
- Title: Erased, But Not Forgotten: Erased Rectified Flow Transformers Still Remain Unsafe Under Concept Attack
- Title(参考訳): 老朽化した、しかし忘れられていない: 改ざんされた流動変圧器は、コンセプト攻撃でまだ安全のままだ
- Authors: Nanxiang Jiang, Zhaoxin Fan, Enhan Kang, Daiheng Gao, Yun Zhou, Yanxia Chang, Zheng Zhu, Yeying Jin, Wenjun Wu,
- Abstract要約: 本稿では,最新のフローベースT2Iフレームワークにおいて,概念消去の堅牢性を評価するために設計された最初の概念攻撃手法であるReFluxを提案する。
我々のアプローチは、既存の概念消去技術が Flux に適用された場合、基本的にはアテンションローカライゼーションとして知られる現象に依存しているという観察に動機づけられている。
- 参考スコア(独自算出の注目度): 37.88516477305766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image (T2I) diffusion models have enabled impressive generative capabilities, but they also raise significant safety concerns due to the potential to produce harmful or undesirable content. While concept erasure has been explored as a mitigation strategy, most existing approaches and corresponding attack evaluations are tailored to Stable Diffusion (SD) and exhibit limited effectiveness when transferred to next-generation rectified flow transformers such as Flux. In this work, we present ReFlux, the first concept attack method specifically designed to assess the robustness of concept erasure in the latest rectified flow-based T2I framework. Our approach is motivated by the observation that existing concept erasure techniques, when applied to Flux, fundamentally rely on a phenomenon known as attention localization. Building on this insight, we propose a simple yet effective attack strategy that specifically targets this property. At its core, a reverse-attention optimization strategy is introduced to effectively reactivate suppressed signals while stabilizing attention. This is further reinforced by a velocity-guided dynamic that enhances the robustness of concept reactivation by steering the flow matching process, and a consistency-preserving objective that maintains the global layout and preserves unrelated content. Extensive experiments consistently demonstrate the effectiveness and efficiency of the proposed attack method, establishing a reliable benchmark for evaluating the robustness of concept erasure strategies in rectified flow transformers.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルの最近の進歩は、印象的な生成機能を実現しているが、有害または望ましくないコンテンツを生み出す可能性があるため、大きな安全性上の懸念も生じている。
概念消去は緩和戦略として検討されているが、既存のアプローチとそれに対応する攻撃評価は安定拡散(SD)に合わせて調整されており、フラックスのような次世代の正流変圧器に移行する際の限界効果を示す。
本研究では,最新のフローベースT2Iフレームワークにおいて,概念消去の堅牢性を評価するために設計された最初の概念攻撃手法であるReFluxを提案する。
我々のアプローチは、既存の概念消去技術が Flux に適用された場合、基本的にはアテンションローカライゼーションとして知られる現象に依存しているという観察に動機づけられている。
この知見に基づいて、我々は、この特性を特に対象とする、シンプルで効果的な攻撃戦略を提案する。
その中核には、注意を安定させながら抑圧された信号を効果的に再活性化するリバースアテンション最適化戦略が導入されている。
これは、フローマッチングプロセスをステアリングすることで、概念再活性化の堅牢性を高めるベロシティ誘導力学と、グローバルなレイアウトを維持し、無関係なコンテンツを保存する一貫性保存目的によってさらに強化される。
大規模な実験により提案手法の有効性と効率が一貫して実証され, 整流トランスにおける概念消去戦略の堅牢性を評価するための信頼性の高いベンチマークが確立された。
関連論文リスト
- Stealth by Conformity: Evading Robust Aggregation through Adaptive Poisoning [5.205955684180866]
Federated Learning(FL)は、プライバシの問題に対処するために設計された分散学習パラダイムである。
我々は適応的かつ回避的な毒殺戦略であるChameleon Poisoning (CHAMP)を提案する。
CHAMPは、より効果的で回避可能な中毒を可能にし、既存の堅牢なアグリゲーション防衛の基本的な制限を強調している。
論文 参考訳(メタデータ) (2025-09-03T13:40:54Z) - Improving Black-Box Generative Attacks via Generator Semantic Consistency [51.470649503929344]
ジェネレーティブアタックは テスト時に 1つのフォワードパスで 敵の例を生成する
初期ジェネレータの中間機能をEMA教師に整列させることで意味的整合性を実現する。
我々のアプローチは、ブラックボックス転送の一貫性を保ちながら、既存のジェネレーティブアタックにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-06-23T02:35:09Z) - SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models [56.83154571623655]
モデルパラメータを直接編集する効率的な概念消去手法であるSPEEDを導入する。
Speedyは、パラメータ更新がターゲット以外の概念に影響しないモデル編集スペースであるnullスペースを検索する。
たった5秒で100のコンセプトを消去しました。
論文 参考訳(メタデータ) (2025-03-10T14:40:01Z) - EraseAnything: Enabling Concept Erasure in Rectified Flow Transformers [33.195628798316754]
EraseAnythingは、最新のフローベースのT2Iフレームワークにおける概念消去に対処するために特別に開発された最初の方法である。
概念消去を二段階最適化問題として定式化し,LoRAに基づくパラメータチューニングとアテンションマップ正規化器を用いた。
本研究では,意図しない概念の除去が意図せず,無関係な概念のパフォーマンスを損なうことのない自己矛盾型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-12-29T09:42:53Z) - Precise, Fast, and Low-cost Concept Erasure in Value Space: Orthogonal Complement Matters [38.355389084255386]
本稿では,Adaptive Value Decomposer (AdaVD) という,高精度で高速かつ低コストな概念消去手法を提案する。
AdaVDはシングルとマルチのコンセプト消去に優れており、保存前の2倍から10倍の改善が見られた。
論文 参考訳(メタデータ) (2024-12-09T01:56:25Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。