論文の概要: Closing the Safety Gap: Surgical Concept Erasure in Visual Autoregressive Models
- arxiv url: http://arxiv.org/abs/2509.22400v1
- Date: Fri, 26 Sep 2025 14:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.500205
- Title: Closing the Safety Gap: Surgical Concept Erasure in Visual Autoregressive Models
- Title(参考訳): 安全ギャップの閉鎖:視覚的自己回帰モデルにおける外科的概念消去
- Authors: Xinhao Zhong, Yimin Zhou, Zhiqi Zhang, Junhao Li, Yi Sun, Bin Chen, Shu-Tao Xia, Ke Xu,
- Abstract要約: 本稿では,視覚的自己回帰モデルにおける概念消去を安定させる新しいフレームワークVAREを提案する。
次に、VAR用に設計された新規かつ効果的な概念消去手法であるS-VAREを紹介する。
提案手法は,生成品質を保ちながら外科的概念の消去を実現し,自動回帰テキスト・画像生成における安全性のギャップを埋める。
- 参考スコア(独自算出の注目度): 48.34555526275907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of visual autoregressive (VAR) models has brought new opportunities for text-to-image generation, but also heightened safety concerns. Existing concept erasure techniques, primarily designed for diffusion models, fail to generalize to VARs due to their next-scale token prediction paradigm. In this paper, we first propose a novel VAR Erasure framework VARE that enables stable concept erasure in VAR models by leveraging auxiliary visual tokens to reduce fine-tuning intensity. Building upon this, we introduce S-VARE, a novel and effective concept erasure method designed for VAR, which incorporates a filtered cross entropy loss to precisely identify and minimally adjust unsafe visual tokens, along with a preservation loss to maintain semantic fidelity, addressing the issues such as language drift and reduced diversity introduce by na\"ive fine-tuning. Extensive experiments demonstrate that our approach achieves surgical concept erasure while preserving generation quality, thereby closing the safety gap in autoregressive text-to-image generation by earlier methods.
- Abstract(参考訳): 視覚自己回帰モデル(VAR)の急速な進歩は、テキスト・ツー・イメージ生成の新しい機会をもたらしたが、安全性の懸念も高まった。
既存の概念消去技術は、主に拡散モデルのために設計されており、次のスケールのトークン予測パラダイムのため、VARに一般化できない。
本稿では,補助的な視覚トークンを活用し,微調整強度を低減し,VARモデルの安定した概念消去を可能にする新しいVAR消去フレームワークVAREを提案する。
S-VAREは、フィルタされたクロスエントロピー損失を組み込んで、安全でない視覚トークンを正確に識別し、最小限に調整し、セマンティックな忠実さを維持するための保存損失を解消し、言語ドリフトや、na\\ive fine-tuningによる多様性の低減といった課題に対処する、VAR用に設計された新しい効果的な概念消去手法である。
大規模な実験により, 提案手法は生成品質を保ちながら, 外科的概念の消去を実現し, 従来手法による自己回帰的テキスト・画像生成の安全性のギャップを埋めることが実証された。
関連論文リスト
- VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation [57.36681904639463]
自己回帰的テキスト・画像モデルを保護する方法はまだ未検討のままである。
コンテンツセマンティクスから安全でない概念を正確に分離する新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。
提案手法は,安全でない概念を消去し,無関係な概念の整合性を保ちながら,最先端の成果を効果的に確保できることを実証する。
論文 参考訳(メタデータ) (2025-09-21T09:00:27Z) - Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness [4.23067546195708]
textbfSCORE (Secure and Concept-Oriented Robust Erasure)は拡散モデルにおけるロバストな概念除去のための新しいフレームワークである。
SCOREは拡散モデルにおける安全で堅牢な概念消去のための新しい標準を定めている。
論文 参考訳(メタデータ) (2025-09-15T15:05:50Z) - FADE: Adversarial Concept Erasure in Flow Models [4.774890908509861]
テキストから画像への拡散モデルのための新しいtextbfconcept消去法を提案する。
提案手法は,軌道認識型微調整戦略と,その概念を確実に取り除くための対向的目的を組み合わせたものである。
提案手法は, 消去された概念とモデル出力との相互情報を最小化する。
論文 参考訳(メタデータ) (2025-07-16T14:31:21Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。
本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。
実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文 参考訳(メタデータ) (2024-05-26T11:42:20Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。