Fugu-MT 論文翻訳(概要): Editing Massive Concepts in Text-to-Image Diffusion Models

論文の概要: Editing Massive Concepts in Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2403.13807v1
Date: Wed, 20 Mar 2024 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 15:48:57.753847
Title: Editing Massive Concepts in Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルにおける大量概念の編集
Authors: Tianwei Xiong, Yue Wu, Enze Xie, Yue Wu, Zhenguo Li, Xihui Liu,
Abstract要約: 拡散モデル(EMCID)における大量概念を編集する2段階手法を提案する。第1段階では、テキストアライメントの損失と拡散雑音予測の損失から2つの自己蒸留による各概念のメモリ最適化を行う。第2段階では、多層クローズドフォームモデル編集による大規模な概念編集を行う。
参考スコア（独自算出の注目度）: 58.620118104364174
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image diffusion models suffer from the risk of generating outdated, copyrighted, incorrect, and biased content. While previous methods have mitigated the issues on a small scale, it is essential to handle them simultaneously in larger-scale real-world scenarios. We propose a two-stage method, Editing Massive Concepts In Diffusion Models (EMCID). The first stage performs memory optimization for each individual concept with dual self-distillation from text alignment loss and diffusion noise prediction loss. The second stage conducts massive concept editing with multi-layer, closed form model editing. We further propose a comprehensive benchmark, named ImageNet Concept Editing Benchmark (ICEB), for evaluating massive concept editing for T2I models with two subtasks, free-form prompts, massive concept categories, and extensive evaluation metrics. Extensive experiments conducted on our proposed benchmark and previous benchmarks demonstrate the superior scalability of EMCID for editing up to 1,000 concepts, providing a practical approach for fast adjustment and re-deployment of T2I diffusion models in real-world applications.
Abstract（参考訳）: テキストから画像への拡散モデルは、時代遅れ、著作権付き、誤った、バイアスのあるコンテンツを生成するリスクに悩まされる。従来の手法は問題を小さな規模で緩和してきたが、より大規模な現実のシナリオで同時に扱うことが不可欠である。拡散モデル(EMCID)における大量概念を編集する2段階の手法を提案する。第1段階では、テキストアライメントの損失と拡散雑音予測の損失から2つの自己蒸留による各概念のメモリ最適化を行う。第2段階では、多層クローズドフォームモデル編集による大規模な概念編集を行う。さらに,2つのサブタスク,フリーフォームプロンプト,大規模概念カテゴリ,広範囲な評価指標を備えたT2Iモデルの大規模な概念編集を評価するための総合ベンチマークである ImageNet Concept Editing Benchmark (ICEB) を提案する。提案したベンチマークおよび以前のベンチマークにおいて,1000以上の概念を編集するためのEMCIDの優れたスケーラビリティを実証し,実世界の応用におけるT2I拡散モデルの迅速な調整と再デプロイのための実践的アプローチを提供する。

関連論文リスト

EraseAnything: Enabling Concept Erasure in Rectified Flow Transformers [33.195628798316754]
EraseAnythingは、最新のフローベースのT2Iフレームワークにおける概念消去に対処するために特別に開発された最初の方法である。概念消去を二段階最適化問題として定式化し,LoRAに基づくパラメータチューニングとアテンションマップ正規化器を用いた。本研究では,意図しない概念の除去が意図せず,無関係な概念のパフォーマンスを損なうことのない自己矛盾型学習戦略を提案する。
論文参考訳（メタデータ） (2024-12-29T09:42:53Z)
DreamSteerer: Enhancing Source Image Conditioned Editability using Personalized Diffusion Models [7.418186319496487]
近年のテキスト・ツー・イメージのパーソナライズ手法は,ユーザ特定概念の拡散モデルを教える上で大きな可能性を秘めている。有望な拡張は、パーソナライズされた概念を使って画像を編集するパーソナライズされた編集である。本稿では,既存のT2Iパーソナライズ手法を拡張するプラグインであるDreamSteerを提案する。
論文参考訳（メタデータ） (2024-10-15T02:50:54Z)
Training-Free Large Model Priors for Multiple-in-One Image Restoration [24.230376300759573]
大型モデル駆動画像復元フレームワーク(LMDIR) 我々のアーキテクチャは、グローバルな劣化知識を注入するクエリベースのプロンプトエンコーダ、分解対応トランスフォーマーブロックで構成されている。この設計は、自動修復とユーザガイド修復の両方をサポートしながら、様々な劣化に対処するためのシングルステージトレーニングパラダイムを促進する。
論文参考訳（メタデータ） (2024-07-18T05:40:32Z)
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文参考訳（メタデータ） (2024-06-21T03:58:44Z)
Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.091446060893638]
本稿では,拡散モデルにおける非学習概念のための概念領域補正フレームワークを提案する。直感的概念とアンカー的概念の出力領域を敵対的訓練によって整合させることにより、未学習結果の一般化性を高める。
論文参考訳（メタデータ） (2024-05-24T07:47:36Z)
Direct Consistency Optimization for Compositional Text-to-Image Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文参考訳（メタデータ） (2024-02-19T09:52:41Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Unified Concept Editing in Diffusion Models [53.30378722979958]
一つのアプローチで全ての問題に取り組む方法を提案する。本手法,Unified Concept Editing (UCE) は,クローズドフォーム・ソリューションを用いて学習せずにモデルを編集する。テキスト・ツー・イメージ・プロジェクションを編集することで、拡張性のある同時デバイアス、スタイル消去、コンテンツモデレーションを実証する。
論文参考訳（メタデータ） (2023-08-25T17:59:59Z)
Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文参考訳（メタデータ） (2023-07-12T07:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。