論文の概要: Concept-centric Personalization with Large-scale Diffusion Priors
- arxiv url: http://arxiv.org/abs/2312.08195v1
- Date: Wed, 13 Dec 2023 14:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:58:46.154674
- Title: Concept-centric Personalization with Large-scale Diffusion Priors
- Title(参考訳): 大規模拡散前の概念中心のパーソナライゼーション
- Authors: Pu Cao, Lu Yang, Feng Zhou, Tianrui Huang, Qing Song
- Abstract要約: 本稿では、概念中心のパーソナライゼーションとして、特定の概念に対する大規模な拡散先行をカスタマイズするタスクを提案する。
我々のゴールは、オープンワールドモデルに固有の汎用性を維持しつつ、高品質なコンセプト中心の画像を生成することである。
- 参考スコア(独自算出の注目度): 7.684688573874212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite large-scale diffusion models being highly capable of generating
diverse open-world content, they still struggle to match the photorealism and
fidelity of concept-specific generators. In this work, we present the task of
customizing large-scale diffusion priors for specific concepts as
concept-centric personalization. Our goal is to generate high-quality
concept-centric images while maintaining the versatile controllability inherent
to open-world models, enabling applications in diverse tasks such as
concept-centric stylization and image translation. To tackle these challenges,
we identify catastrophic forgetting of guidance prediction from diffusion
priors as the fundamental issue. Consequently, we develop a guidance-decoupled
personalization framework specifically designed to address this task. We
propose Generalized Classifier-free Guidance (GCFG) as the foundational theory
for our framework. This approach extends Classifier-free Guidance (CFG) to
accommodate an arbitrary number of guidances, sourced from a variety of
conditions and models. Employing GCFG enables us to separate conditional
guidance into two distinct components: concept guidance for fidelity and
control guidance for controllability. This division makes it feasible to train
a specialized model for concept guidance, while ensuring both control and
unconditional guidance remain intact. We then present a null-text
Concept-centric Diffusion Model as a concept-specific generator to learn
concept guidance without the need for text annotations. Code will be available
at https://github.com/PRIV-Creation/Concept-centric-Personalization.
- Abstract(参考訳): 大規模な拡散モデルは多様なオープンワールドコンテンツを生成する能力が高いが、コンセプト固有のジェネレータのフォトリアリズムと忠実さに相応しい。
本稿では,概念中心のパーソナライゼーションとして,特定の概念に対する大規模拡散優先をカスタマイズするタスクを提案する。
私たちの目標は、オープンワールドモデルに固有の多彩な制御性を維持しつつ、高品質なコンセプト中心のイメージを生成し、概念中心のスタイライゼーションや画像翻訳といったさまざまなタスクでアプリケーションを可能にすることです。
これらの課題に対処するために、拡散前の誘導予測の破滅的な忘れを基本課題として挙げる。
そこで我々は,この課題に特化するためのガイダンス分離型パーソナライズフレームワークを開発した。
本稿では,フレームワークの基本理論として一般化分類器フリーガイダンス(GCFG)を提案する。
このアプローチは、様々な条件やモデルから得られる任意の数のガイダンスに対応するために、分類器フリーガイダンス(CFG)を拡張する。
GCFGを利用することで、条件付きガイダンスを2つの異なるコンポーネント、すなわち、忠実性のための概念ガイダンスと制御可能性のための制御ガイダンスに分けることができる。
この部門は、制御と無条件誘導の両方をそのまま維持しながら、コンセプトガイダンスのための特別なモデルを訓練することができる。
次に,テキストアノテーションを必要とせずに概念指導を学ぶための概念特定生成器として,ヌルテキスト概念中心拡散モデルを提案する。
コードはhttps://github.com/PRIV-Creation/Concept-centric-Personalizationで入手できる。
関連論文リスト
- How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction [20.43411883845885]
本研究では,非教師付き概念抽出(UCE)という,概念の人間的知識のない非教師付き概念抽出手法を提案する。
複数の概念を含むイメージを与えられたタスクは、事前訓練された拡散モデルから既存の知識のみに依存する個々の概念を抽出し、再現することを目的としている。
本稿では,事前学習した拡散モデル固有の能力を2つの側面に解き放つことで,UCEに対処するConceptExpressを提案する。
論文 参考訳(メタデータ) (2024-07-09T17:50:28Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting [51.606819347636076]
本研究では, 概念知識を損なう概念非依存オーバーフィッティングと, 限られたモダリティのカスタマイズに限定した概念特化オーバーフィッティングを分析した。
Infusionは、ターゲット概念の学習を、限られた訓練モダリティによって制限されるのを避けることができるT2Iカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-04-22T09:16:25Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。
LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2024-03-18T09:58:52Z) - Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models [72.67967883658957]
低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。
複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。
我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:58:16Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。