論文の概要: VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation
- arxiv url: http://arxiv.org/abs/2509.16986v1
- Date: Sun, 21 Sep 2025 09:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.066499
- Title: VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation
- Title(参考訳): VCE:ビジュアルコントラスト爆発による安全な自己回帰画像生成
- Authors: Feng Han, Chao Gong, Zhipeng Wei, Jingjing Chen, Yu-Gang Jiang,
- Abstract要約: 自己回帰的テキスト・画像モデルを保護する方法はまだ未検討のままである。
コンテンツセマンティクスから安全でない概念を正確に分離する新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。
提案手法は,安全でない概念を消去し,無関係な概念の整合性を保ちながら,最先端の成果を効果的に確保できることを実証する。
- 参考スコア(独自算出の注目度): 57.36681904639463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, autoregressive image generation models have wowed audiences with their remarkable capability in creating surprisingly realistic images. Models such as GPT-4o and LlamaGen can not only produce images that faithfully mimic renowned artistic styles like Ghibli, Van Gogh, or Picasso, but also potentially generate Not-Safe-For-Work (NSFW) content, raising significant concerns regarding copyright infringement and ethical use. Despite these concerns, methods to safeguard autoregressive text-to-image models remain underexplored. Previous concept erasure methods, primarily designed for diffusion models that operate in denoising latent space, are not directly applicable to autoregressive models that generate images token by token. To address this critical gap, we propose Visual Contrast Exploitation (VCE), a novel framework comprising: (1) an innovative contrastive image pair construction paradigm that precisely decouples unsafe concepts from their associated content semantics, and (2) a sophisticated DPO-based training approach that enhances the model's ability to identify and leverage visual contrastive features from image pairs, enabling precise concept erasure. Our comprehensive experiments across three challenging tasks-artist style erasure, explicit content erasure, and object removal-demonstrate that our method effectively secures the model, achieving state-of-the-art results while erasing unsafe concepts and maintaining the integrity of unrelated safe concepts. The code and models are available at https://github.com/Maplebb/VCE.
- Abstract(参考訳): 近年, 自動回帰画像生成モデルは, 驚くほどリアルな画像を作成する能力で観客を驚かせている。
GPT-4oやLlamaGenのようなモデルでは、Ghibli、Van Gogh、Picassoといった著名な芸術スタイルを忠実に模倣するイメージを生成できないだけでなく、Not-Safe-For-Work(NSFW)コンテンツを生成する可能性もあり、著作権侵害や倫理的使用に関する重大な懸念を提起している。
これらの懸念にもかかわらず、自己回帰的テキスト・ツー・イメージモデルを保護する方法はまだ未検討のままである。
従来の概念消去法は、主に遅延空間をノイズ化する拡散モデルのために設計されており、トークンによって画像トークンを生成する自己回帰モデルには直接適用されない。
この重要なギャップに対処するために,(1) 関連コンテンツセマンティクスから安全でない概念を正確に分離する革新的なコントラスト画像ペア構築パラダイム,(2) 画像ペアから視覚コントラスト特徴を識別し活用する能力を高めるDPOベースの訓練アプローチからなる,新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。
本手法は,安全でない概念を消去し,無関係な安全な概念の整合性を維持しつつ,最先端の成果を達成し,効果的にモデルを確保できることを実証する。
コードとモデルはhttps://github.com/Maplebb/VCEで公開されている。
関連論文リスト
- Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness [4.23067546195708]
textbfSCORE (Secure and Concept-Oriented Robust Erasure)は拡散モデルにおけるロバストな概念除去のための新しいフレームワークである。
SCOREは拡散モデルにおける安全で堅牢な概念消去のための新しい標準を定めている。
論文 参考訳(メタデータ) (2025-09-15T15:05:50Z) - FADE: Adversarial Concept Erasure in Flow Models [4.774890908509861]
テキストから画像への拡散モデルのための新しいtextbfconcept消去法を提案する。
提案手法は,軌道認識型微調整戦略と,その概念を確実に取り除くための対向的目的を組み合わせたものである。
提案手法は, 消去された概念とモデル出力との相互情報を最小化する。
論文 参考訳(メタデータ) (2025-07-16T14:31:21Z) - TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models [0.0]
概念消去は、生成モデルにおいて特定の概念情報を削除または抑制することを目的としている。
Trajectory-Constrained Attentional Concept Erasure (TRACE) は拡散モデルから対象概念を消去する新しい手法である。
TRACEは最先端のパフォーマンスを実現し、ANT、EraseAnything、MACEといった最近の手法よりも、除去効率と出力品質の点で優れています。
論文 参考訳(メタデータ) (2025-05-29T10:15:22Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。