論文の概要: EAR: Erasing Concepts from Unified Autoregressive Models
- arxiv url: http://arxiv.org/abs/2506.20151v1
- Date: Wed, 25 Jun 2025 06:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.614396
- Title: EAR: Erasing Concepts from Unified Autoregressive Models
- Title(参考訳): EAR: 統一された自己回帰モデルから概念を消去する
- Authors: Haipeng Fan, Shiyuan Zhang, Baohunesitu, Zihang Guo, Huaiwen Zhang,
- Abstract要約: 本稿では,ARモデルにおける有効かつ有効に保存できる概念消去のための微調整手法であるErasure Autoregressive Model (EAR)を提案する。
具体的には、パッチレベルのデコードと消去対象との整合性を確保するために、Windowed Gradient Accumulation (WGA)戦略を導入する。
我々はまた、ARモデルにおける概念消去を評価するためのより厳密で包括的な基盤を提供することを目的として、新しいベンチマークであるErase Concept Generator and Visual Filter (ECGVF)を提案する。
- 参考スコア(独自算出の注目度): 3.55166983092355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) models have achieved unified and strong performance across both visual understanding and image generation tasks. However, removing undesired concepts from AR models while maintaining overall generation quality remains an open challenge. In this paper, we propose Erasure Autoregressive Model (EAR), a fine-tuning method for effective and utility-preserving concept erasure in AR models. Specifically, we introduce Windowed Gradient Accumulation (WGA) strategy to align patch-level decoding with erasure objectives, and Thresholded Loss Masking (TLM) strategy to protect content unrelated to the target concept during fine-tuning. Furthermore, we propose a novel benchmark, Erase Concept Generator and Visual Filter (ECGVF), aim at provide a more rigorous and comprehensive foundation for evaluating concept erasure in AR models. Specifically, we first employ structured templates across diverse large language models (LLMs) to pre-generate a large-scale corpus of target-replacement concept prompt pairs. Subsequently, we generate images from these prompts and subject them to rigorous filtering via a visual classifier to ensure concept fidelity and alignment. Extensive experimental results conducted on the ECGVF benchmark with the AR model Janus-Pro demonstrate that EAR achieves marked improvements in both erasure effectiveness and model utility preservation. Code is available at: https://github.com/immc-lab/ear/
- Abstract(参考訳): 自己回帰(AR)モデルは、視覚的理解と画像生成の両方において統一的で強力なパフォーマンスを達成した。
しかし、全体的な生成品質を維持しながら、ARモデルから望ましくない概念を取り除くことは、オープンな課題である。
本稿では,ARモデルにおける有効かつ有効に保存できる概念消去のための微調整手法であるErasure Autoregressive Model (EAR)を提案する。
具体的には、パッチレベルのデコードと消去目標を整合させるウィンドウドグラディエント累積(WGA)戦略と、微調整中にターゲット概念とは無関係なコンテンツを保護するためのThresholded Loss Masking(TLM)戦略を導入する。
さらに,ARモデルにおける概念消去を評価するための,より厳密で包括的な基盤を提供することを目的とした,新しいベンチマークであるErase Concept Generator and Visual Filter(ECGVF)を提案する。
具体的には、まず、多種多様な大規模言語モデル(LLM)にまたがる構造化テンプレートを用いて、大規模コーパスのターゲット置換概念のプロンプトペアを事前生成する。
その後、これらのプロンプトから画像を生成し、視覚分類器を介して厳密なフィルタリングを行い、概念の忠実さとアライメントを確保する。
The ECGVF benchmark with the AR model Janus-Pro showed that EAR achieves marked improvements in erasure effectiveness and model utility storage。
コードは、https://github.com/immc-lab/ear/で入手できる。
関連論文リスト
- DreamVAR: Taming Reinforced Visual Autoregressive Model for High-Fidelity Subject-Driven Image Generation [108.71044040025374]
本稿では,視覚的自己回帰モデルに基づく主観的画像合成のための新しいフレームワークを提案する。
本研究では,Dreamtheが従来の拡散法よりも優れた外観保存を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-30T03:32:29Z) - CGCE: Classifier-Guided Concept Erasure in Generative Models [53.7410000675294]
概念消去は、事前訓練されたモデルから望ましくない概念を取り除くために開発された。
既存の方法は、削除されたコンテンツを再生できる敵攻撃に弱いままである。
多様な生成モデルに対して堅牢な概念消去を提供する効率的なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-08T05:38:18Z) - EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - Closing the Safety Gap: Surgical Concept Erasure in Visual Autoregressive Models [48.34555526275907]
本稿では,視覚的自己回帰モデルにおける概念消去を安定させる新しいフレームワークVAREを提案する。
次に、VAR用に設計された新規かつ効果的な概念消去手法であるS-VAREを紹介する。
提案手法は,生成品質を保ちながら外科的概念の消去を実現し,自動回帰テキスト・画像生成における安全性のギャップを埋める。
論文 参考訳(メタデータ) (2025-09-26T14:26:52Z) - DyME: Dynamic Multi-Concept Erasure in Diffusion Models with Bi-Level Orthogonal LoRA Adaptation [11.480659591569308]
テキストから画像への拡散モデルは、著作権のあるスタイルを不注意に再現し、視覚的概念を保護し、法的および倫理的懸念を提起する。
概念消去は、微調整によってそのような概念を選択的に抑制することを目的とした安全保護として登場した。
我々は、軽量でコンセプト固有のLoRAアダプタを訓練し、推論に必要なものだけを動的に構成するオンデマンド消去フレームワークDyMEを提案する。
論文 参考訳(メタデータ) (2025-09-25T15:16:17Z) - VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation [57.36681904639463]
自己回帰的テキスト・画像モデルを保護する方法はまだ未検討のままである。
コンテンツセマンティクスから安全でない概念を正確に分離する新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。
提案手法は,安全でない概念を消去し,無関係な概念の整合性を保ちながら,最先端の成果を効果的に確保できることを実証する。
論文 参考訳(メタデータ) (2025-09-21T09:00:27Z) - FADE: Adversarial Concept Erasure in Flow Models [4.774890908509861]
テキストから画像への拡散モデルのための新しいtextbfconcept消去法を提案する。
提案手法は,軌道認識型微調整戦略と,その概念を確実に取り除くための対向的目的を組み合わせたものである。
提案手法は, 消去された概念とモデル出力との相互情報を最小化する。
論文 参考訳(メタデータ) (2025-07-16T14:31:21Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。
提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。
ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - AR-RAG: Autoregressive Retrieval Augmentation for Image Generation [35.008697736838194]
本稿では, 自動回帰検索(AR-RAG)を導入し, パッチレベルでのケネレス近傍検索を自己回帰的に組み込むことにより, 画像生成を向上させる新しいパラダイムを提案する。
我々は、Midjourney-30K, GenEval, DPG-Benchなど、広く採用されているベンチマークにおけるAR-RAGの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-08T01:33:05Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - DuMo: Dual Encoder Modulation Network for Precise Concept Erasure [75.05165577219425]
非ターゲット概念に対する最小限の障害を伴う不適切なターゲット概念の正確な消去を実現するDuMo(Dual Encoder Modulation Network)を提案する。
提案手法は, 明示的コンテンツ消去, カートゥーン概念除去, アーティスティックスタイル消去における最先端性能を実現し, 代替手法よりも明らかに優れている。
論文 参考訳(メタデータ) (2025-01-02T07:47:34Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)は、ノイズ、ぼかし、圧縮、悪天候などの様々な要因によって劣化した入力から高品質な画像を復元することを目的としている。
従来のIR手法は、一般的に特定の種類の劣化に焦点を当てており、複雑な歪みを伴う現実世界のシナリオにおけるそれらの効果を制限している。
オールインワンのイメージ復元パラダイムが最近登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供している。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Defending Variational Autoencoders from Adversarial Attacks with MCMC [74.36233246536459]
変分オートエンコーダ(VAE)は、様々な領域で使用される深部生成モデルである。
以前の研究が示すように、視覚的にわずかに修正された入力に対する予期せぬ潜在表現と再構成を生成するために、VAEを簡単に騙すことができる。
本稿では, 敵攻撃構築のための目的関数について検討し, モデルのロバスト性を評価する指標を提案し, 解決策を提案する。
論文 参考訳(メタデータ) (2022-03-18T13:25:18Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。