論文の概要: Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
- arxiv url: http://arxiv.org/abs/2504.12782v1
- Date: Thu, 17 Apr 2025 09:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:37.089149
- Title: Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts
- Title(参考訳): Set You Straight: 不要なコンセプトをサイドステップにするための自動ステアリングの軌道
- Authors: Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong,
- Abstract要約: 我々は、望ましくない概念を避けるためにdeNoising TrajectoriesをガイドするANTと呼ばれる微調整フレームワークを導入する。
ANTは重要な洞察に基づいて構築されている。
単一概念の消去のために,より徹底的かつ効率的な消去を可能にする拡張型重み対応マップを提案する。
マルチコンセプト消去のために,目的関数は汎用的なプラグアンドプレイソリューションを提供し,性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 12.04985139116705
- License:
- Abstract: Ensuring the ethical deployment of text-to-image models requires effective techniques to prevent the generation of harmful or inappropriate content. While concept erasure methods offer a promising solution, existing finetuning-based approaches suffer from notable limitations. Anchor-free methods risk disrupting sampling trajectories, leading to visual artifacts, while anchor-based methods rely on the heuristic selection of anchor concepts. To overcome these shortcomings, we introduce a finetuning framework, dubbed ANT, which Automatically guides deNoising Trajectories to avoid unwanted concepts. ANT is built on a key insight: reversing the condition direction of classifier-free guidance during mid-to-late denoising stages enables precise content modification without sacrificing early-stage structural integrity. This inspires a trajectory-aware objective that preserves the integrity of the early-stage score function field, which steers samples toward the natural image manifold, without relying on heuristic anchor concept selection. For single-concept erasure, we propose an augmentation-enhanced weight saliency map to precisely identify the critical parameters that most significantly contribute to the unwanted concept, enabling more thorough and efficient erasure. For multi-concept erasure, our objective function offers a versatile plug-and-play solution that significantly boosts performance. Extensive experiments demonstrate that ANT achieves state-of-the-art results in both single and multi-concept erasure, delivering high-quality, safe outputs without compromising the generative fidelity. Code is available at https://github.com/lileyang1210/ANT
- Abstract(参考訳): テキスト・ツー・イメージ・モデルの倫理的展開を保証するには、有害なコンテンツや不適切なコンテンツの発生を防止する効果的な技術が必要である。
概念消去手法は有望な解決策を提供するが、既存の微調整ベースのアプローチは顕著な限界に悩まされている。
アンカーフリーな手法はサンプリング軌道を乱す危険性があり、視覚的アーティファクトにつながるが、アンカーベースの手法はアンカーの概念のヒューリスティックな選択に依存する。
これらの欠点を克服するために、ANTと呼ばれる微調整フレームワークを導入し、不要な概念を避けるためにdeNoising Trajectoriesを自動的に誘導する。
antは重要な洞察に基づいて構築されている: 中間段階から後期段階まで、分類子なし指導の条件方向を逆転することで、初期構造的整合性を犠牲にすることなく、正確な内容の変更が可能になる。
このことは、ヒューリスティックなアンカーの概念選択に頼ることなく、自然像多様体に向かってサンプルを操るアーリーステージスコア関数場の整合性を維持する軌跡認識の目的を刺激する。
単一概念の消去のために、不要な概念に最も大きく寄与する重要なパラメータを正確に識別し、より徹底的で効率的な消去を可能にするために、拡張強化された重量塩分マップを提案する。
マルチコンセプト消去のために,目的関数は汎用的なプラグアンドプレイソリューションを提供し,性能を大幅に向上させる。
広範囲にわたる実験により、ANTは単一概念と多概念の消去において最先端の結果を達成し、生成の忠実さを損なうことなく高品質で安全な出力を提供することを示した。
コードはhttps://github.com/lileyang1210/ANTで公開されている。
関連論文リスト
- Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations [10.86252546314626]
テキスト・ツー・イメージ生成モデルは、敵対的な攻撃をしがちであり、不安全で非倫理的なコンテンツを不注意に生成する。
我々は,k-スパースオートエンコーダ(k-SAE)を活用して,効率的な,解釈可能な概念操作を実現する新しいフレームワークを提案する。
提案手法は, 安全でない概念除去において$mathbf20.01%$の改善を実現し, スタイル操作に有効であり, 現在の最先端技術よりも$mathbfsim5$x高速である。
論文 参考訳(メタデータ) (2025-01-31T11:52:47Z) - DuMo: Dual Encoder Modulation Network for Precise Concept Erasure [75.05165577219425]
非ターゲット概念に対する最小限の障害を伴う不適切なターゲット概念の正確な消去を実現するDuMo(Dual Encoder Modulation Network)を提案する。
提案手法は, 明示的コンテンツ消去, カートゥーン概念除去, アーティスティックスタイル消去における最先端性能を実現し, 代替手法よりも明らかに優れている。
論文 参考訳(メタデータ) (2025-01-02T07:47:34Z) - EraseAnything: Enabling Concept Erasure in Rectified Flow Transformers [33.195628798316754]
EraseAnythingは、最新のフローベースのT2Iフレームワークにおける概念消去に対処するために特別に開発された最初の方法である。
概念消去を二段階最適化問題として定式化し,LoRAに基づくパラメータチューニングとアテンションマップ正規化器を用いた。
本研究では,意図しない概念の除去が意図せず,無関係な概念のパフォーマンスを損なうことのない自己矛盾型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-12-29T09:42:53Z) - AdvAnchor: Enhancing Diffusion Model Unlearning with Adversarial Anchors [61.007590285263376]
セキュリティ上の懸念から、研究者たちは微調整によって不適切な概念を学ばざるを得なくなった。
最近の微調整手法は、望ましくない概念を排除し、他の概念を保存することの間のかなりの性能のトレードオフを示す。
本稿では,貿易問題を軽減するために,敵対的アンカーを生成する新しいアプローチであるAdvAnchorを提案する。
論文 参考訳(メタデータ) (2024-12-28T04:44:07Z) - Concept Replacer: Replacing Sensitive Concepts in Diffusion Models via Precision Localization [48.20360860166279]
大規模な拡散モデルは高品質な画像を生成するが、しばしば性的に明示的なコンテンツや暴力的なコンテンツのような望ましくないコンテンツを生成する。
本研究では,非対象領域に影響を及ぼすことなく,特定の概念を除去することが可能な拡散モデルにおいて,対象概念を置き換えるための新しい手法を提案する。
本手法では,最小限のラベル付きデータを必要とする数発の学習で学習し,目標概念を正確に識別する専用概念ローカライザを提案する。
特定領域内では,DPCA(Dual Prompts Cross-Attention)モジュールが導入された。
論文 参考訳(メタデータ) (2024-12-02T08:05:39Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。