論文の概要: Customized Generation Reimagined: Fidelity and Editability Harmonized
- arxiv url: http://arxiv.org/abs/2412.04831v1
- Date: Fri, 06 Dec 2024 07:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:12.504285
- Title: Customized Generation Reimagined: Fidelity and Editability Harmonized
- Title(参考訳): カスタマイズされた生成: 忠実性と編集可能性の調和
- Authors: Jian Jin, Yang Shen, Zhenyong Fu, Jian Yang,
- Abstract要約: カスタマイズされた生成は、新しい概念を事前訓練されたテキスト・ツー・イメージモデルに組み込むことを目的としている。
カスタマイズされた生成は、概念の忠実さと編集性の間の本質的にのトレードオフに悩まされる。
- 参考スコア(独自算出の注目度): 30.92739649737791
- License:
- Abstract: Customized generation aims to incorporate a novel concept into a pre-trained text-to-image model, enabling new generations of the concept in novel contexts guided by textual prompts. However, customized generation suffers from an inherent trade-off between concept fidelity and editability, i.e., between precisely modeling the concept and faithfully adhering to the prompts. Previous methods reluctantly seek a compromise and struggle to achieve both high concept fidelity and ideal prompt alignment simultaneously. In this paper, we propose a Divide, Conquer, then Integrate (DCI) framework, which performs a surgical adjustment in the early stage of denoising to liberate the fine-tuned model from the fidelity-editability trade-off at inference. The two conflicting components in the trade-off are decoupled and individually conquered by two collaborative branches, which are then selectively integrated to preserve high concept fidelity while achieving faithful prompt adherence. To obtain a better fine-tuned model, we introduce an Image-specific Context Optimization} (ICO) strategy for model customization. ICO replaces manual prompt templates with learnable image-specific contexts, providing an adaptive and precise fine-tuning direction to promote the overall performance. Extensive experiments demonstrate the effectiveness of our method in reconciling the fidelity-editability trade-off.
- Abstract(参考訳): カスタマイズされた生成は、新しい概念を事前訓練されたテキスト・ツー・イメージモデルに組み込むことを目的としており、テキスト・プロンプトによってガイドされた新しい文脈における概念の新たな世代を可能にする。
しかし、カスタマイズされた世代は、概念の忠実さと編集可能性、すなわち概念を正確にモデル化することと、プロンプトに忠実に固執することの間の本質的にのトレードオフに悩まされる。
従来の手法は、高い概念の忠実さと理想的な即応性の両方を同時に達成するために、妥協と苦闘を渋々に求めている。
本稿では,提案するDivide, Conquer, then Integrate (DCI) フレームワークを提案する。
トレードオフにおける対立する2つのコンポーネントは、分離され、個別に2つの協調ブランチによって征服される。
そこで本研究では,モデルカスタマイズのための画像固有コンテキスト最適化(ICO)戦略を提案する。
ICOは手動のプロンプトテンプレートを学習可能なイメージ固有のコンテキストに置き換え、全体的なパフォーマンスを促進するための適応的で正確な微調整の方向を提供する。
広範に実験を行い,本手法の有効性を実証した。
関連論文リスト
- LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [62.70911549650579]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。
LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。
本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文 参考訳(メタデータ) (2024-12-12T18:59:55Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - DreamSteerer: Enhancing Source Image Conditioned Editability using Personalized Diffusion Models [7.418186319496487]
近年のテキスト・ツー・イメージのパーソナライズ手法は,ユーザ特定概念の拡散モデルを教える上で大きな可能性を秘めている。
有望な拡張は、パーソナライズされた概念を使って画像を編集するパーソナライズされた編集である。
本稿では,既存のT2Iパーソナライズ手法を拡張するプラグインであるDreamSteerを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:50:54Z) - CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。
CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。
本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文 参考訳(メタデータ) (2024-08-22T14:12:20Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Orthogonal Adaptation for Modular Customization of Diffusion Models [39.62438974450659]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文 参考訳(メタデータ) (2023-12-05T02:17:48Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。