論文の概要: Customized Generation Reimagined: Fidelity and Editability Harmonized
- arxiv url: http://arxiv.org/abs/2412.04831v1
- Date: Fri, 06 Dec 2024 07:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:12.504285
- Title: Customized Generation Reimagined: Fidelity and Editability Harmonized
- Title(参考訳): カスタマイズされた生成: 忠実性と編集可能性の調和
- Authors: Jian Jin, Yang Shen, Zhenyong Fu, Jian Yang,
- Abstract要約: カスタマイズされた生成は、新しい概念を事前訓練されたテキスト・ツー・イメージモデルに組み込むことを目的としている。
カスタマイズされた生成は、概念の忠実さと編集性の間の本質的にのトレードオフに悩まされる。
- 参考スコア(独自算出の注目度): 30.92739649737791
- License:
- Abstract: Customized generation aims to incorporate a novel concept into a pre-trained text-to-image model, enabling new generations of the concept in novel contexts guided by textual prompts. However, customized generation suffers from an inherent trade-off between concept fidelity and editability, i.e., between precisely modeling the concept and faithfully adhering to the prompts. Previous methods reluctantly seek a compromise and struggle to achieve both high concept fidelity and ideal prompt alignment simultaneously. In this paper, we propose a Divide, Conquer, then Integrate (DCI) framework, which performs a surgical adjustment in the early stage of denoising to liberate the fine-tuned model from the fidelity-editability trade-off at inference. The two conflicting components in the trade-off are decoupled and individually conquered by two collaborative branches, which are then selectively integrated to preserve high concept fidelity while achieving faithful prompt adherence. To obtain a better fine-tuned model, we introduce an Image-specific Context Optimization} (ICO) strategy for model customization. ICO replaces manual prompt templates with learnable image-specific contexts, providing an adaptive and precise fine-tuning direction to promote the overall performance. Extensive experiments demonstrate the effectiveness of our method in reconciling the fidelity-editability trade-off.
- Abstract(参考訳): カスタマイズされた生成は、新しい概念を事前訓練されたテキスト・ツー・イメージモデルに組み込むことを目的としており、テキスト・プロンプトによってガイドされた新しい文脈における概念の新たな世代を可能にする。
しかし、カスタマイズされた世代は、概念の忠実さと編集可能性、すなわち概念を正確にモデル化することと、プロンプトに忠実に固執することの間の本質的にのトレードオフに悩まされる。
従来の手法は、高い概念の忠実さと理想的な即応性の両方を同時に達成するために、妥協と苦闘を渋々に求めている。
本稿では,提案するDivide, Conquer, then Integrate (DCI) フレームワークを提案する。
トレードオフにおける対立する2つのコンポーネントは、分離され、個別に2つの協調ブランチによって征服される。
そこで本研究では,モデルカスタマイズのための画像固有コンテキスト最適化(ICO)戦略を提案する。
ICOは手動のプロンプトテンプレートを学習可能なイメージ固有のコンテキストに置き換え、全体的なパフォーマンスを促進するための適応的で正確な微調整の方向を提供する。
広範に実験を行い,本手法の有効性を実証した。
関連論文リスト
- Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。
最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。
そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。
本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T10:57:48Z) - DreamSteerer: Enhancing Source Image Conditioned Editability using Personalized Diffusion Models [7.418186319496487]
近年のテキスト・ツー・イメージのパーソナライズ手法は,ユーザ特定概念の拡散モデルを教える上で大きな可能性を秘めている。
有望な拡張は、パーソナライズされた概念を使って画像を編集するパーソナライズされた編集である。
本稿では,既存のT2Iパーソナライズ手法を拡張するプラグインであるDreamSteerを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:50:54Z) - CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。
CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。
本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文 参考訳(メタデータ) (2024-08-22T14:12:20Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Editing Massive Concepts in Text-to-Image Diffusion Models [58.620118104364174]
拡散モデル(EMCID)における大量概念を編集する2段階手法を提案する。
第1段階では、テキストアライメントの損失と拡散雑音予測の損失から2つの自己蒸留による各概念のメモリ最適化を行う。
第2段階では、多層クローズドフォームモデル編集による大規模な概念編集を行う。
論文 参考訳(メタデータ) (2024-03-20T17:59:57Z) - Orthogonal Adaptation for Modular Customization of Diffusion Models [39.62438974450659]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文 参考訳(メタデータ) (2023-12-05T02:17:48Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。