Fugu-MT 論文翻訳(概要): How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization?

論文の概要: How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization?

arxiv url: http://arxiv.org/abs/2410.17594v1
Date: Wed, 23 Oct 2024 06:47:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.34529
Title: How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization?
Title（参考訳）: フレキシブルなカスタマイズのためのテキスト・画像拡散モデルへの継続的適応法
Authors: Jiahua Dong, Wenqi Liang, Hongliu Li, Duzhen Zhang, Meng Cao, Henghui Ding, Salman Khan, Fahad Shahbaz Khan,
Abstract要約: 本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
参考スコア（独自算出の注目度）: 91.49559116493414
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Custom diffusion models (CDMs) have attracted widespread attention due to their astonishing generative ability for personalized concepts. However, most existing CDMs unreasonably assume that personalized concepts are fixed and cannot change over time. Moreover, they heavily suffer from catastrophic forgetting and concept neglect on old personalized concepts when continually learning a series of new concepts. To address these challenges, we propose a novel Concept-Incremental text-to-image Diffusion Model (CIDM), which can resolve catastrophic forgetting and concept neglect to learn new customization tasks in a concept-incremental manner. Specifically, to surmount the catastrophic forgetting of old concepts, we develop a concept consolidation loss and an elastic weight aggregation module. They can explore task-specific and task-shared knowledge during training, and aggregate all low-rank weights of old concepts based on their contributions during inference. Moreover, in order to address concept neglect, we devise a context-controllable synthesis strategy that leverages expressive region features and noise estimation to control the contexts of generated images according to user conditions. Experiments validate that our CIDM surpasses existing custom diffusion models. The source codes are available at https://github.com/JiahuaDong/CIFC.
Abstract（参考訳）: カスタム拡散モデル(CDM)は、パーソナライズされた概念に対する驚くべき生成能力によって、広く注目を集めている。しかし、既存のCDMの多くは、パーソナライズされた概念が固定され、時間とともに変化しないと不当に仮定している。さらに彼らは、一連の新しい概念を継続的に学習するときに、古いパーソナライズされた概念を無視する破滅的な忘れと概念に悩まされている。これらの課題に対処するため、我々は、破滅的な忘れと概念無視を解消し、新しいカスタマイズタスクを概念的に学習する新しい概念-インクリメンタルテキスト-イメージ拡散モデル(CIDM)を提案する。具体的には、古い概念の破滅的な忘れを克服するために、凝縮損失の概念と弾性重み付けモジュールを開発する。トレーニング中のタスク固有知識とタスク共有知識を探索し、推論中の貢献に基づいて、古い概念のすべての低ランクウェイトを集約することができる。さらに,概念の無視に対処するため,ユーザ条件に応じて生成画像のコンテキストを制御するために,表現的領域の特徴と雑音推定を利用するコンテキスト制御可能な合成戦略を考案した。実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。ソースコードはhttps://github.com/JiahuaDong/CIFCで入手できる。

関連論文リスト

ACE: Attentional Concept Erasure in Diffusion Models [0.0]
Attentional Concept Erasureは、クローズドフォームのアテンション操作と軽量な微調整を統合している。 ACEは最先端の概念の除去とロバスト性を実現する。従来の方法と比較して、ACEは一般性(概念と関連する用語)と特異性(無関係なコンテンツを保存する)のバランスが良い。
論文参考訳（メタデータ） (2025-04-16T08:16:28Z)
Sculpting Memory: Multi-Concept Forgetting in Diffusion Models via Dynamic Mask and Concept-Aware Optimization [20.783312940122297]
テキスト・ツー・イメージ(T2I)拡散モデルは,テキスト・プロンプトから高品質な画像を生成することに成功している。しかし、膨大な量の知識を蓄積する能力は、選択的に忘れることが必要なシナリオに懸念を生じさせる。マルチコンセプトを忘れるように設計された新しいアンラーニングフレームワークであるコンセプト・アウェア・ロスを併用したtextbfDynamic Maskを提案する。
論文参考訳（メタデータ） (2025-04-12T01:38:58Z)
ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation [3.7816957214446103]
ConceptGuardは、シフト埋め込み、コンセプトバインディングプロンプト、メモリ保存正規化を組み合わせた包括的なアプローチである。本手法は, 定量的, 定性的な解析において, 基礎的手法を連続的に, 著しく上回ることを示す。
論文参考訳（メタデータ） (2025-03-13T13:39:24Z)
Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation [73.16975077770765]
コンセプトのスタイリングやマルチコンセプトのカスタマイズといったアプリケーションには、モジュール化が不可欠である。インスタントマージ法は、個々のマージされた概念のアイデンティティ損失と干渉を引き起こすことが多い。個々の概念のアイデンティティを正確に保存しつつ,複数の概念を効率的に組み合わせたインスタントマージ手法であるBlockLoRAを提案する。
論文参考訳（メタデータ） (2025-03-11T16:10:36Z)
Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか? ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文参考訳（メタデータ） (2024-10-31T17:09:55Z)
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文参考訳（メタデータ） (2024-08-07T08:43:58Z)
ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction [20.43411883845885]
本研究では,非教師付き概念抽出(UCE)という,概念の人間的知識のない非教師付き概念抽出手法を提案する。複数の概念を含むイメージを与えられたタスクは、事前訓練された拡散モデルから既存の知識のみに依存する個々の概念を抽出し、再現することを目的としている。本稿では,事前学習した拡散モデル固有の能力を2つの側面に解き放つことで,UCEに対処するConceptExpressを提案する。
論文参考訳（メタデータ） (2024-07-09T17:50:28Z)
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance [90.57708419344007]
新しい概念を学ぶ際に, 概念空間を明示的に規制するために, ** 連続保存損失** を利用するテクニックである **ClassDiffusion** を提示する。このアプローチは単純ではあるが、ターゲット概念の微調整過程における意味的ドリフトを効果的に防止する。
論文参考訳（メタデータ） (2024-05-27T17:50:10Z)
MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。 MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文参考訳（メタデータ） (2024-04-08T07:59:04Z)
LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。 LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文参考訳（メタデータ） (2024-03-18T09:58:52Z)
Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-02-03T11:10:57Z)
Concept Distillation: Leveraging Human-Centered Explanations for Model Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文参考訳（メタデータ） (2023-11-26T14:00:14Z)
Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-08T16:45:56Z)
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models [72.67967883658957]
低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T17:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。