論文の概要: Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation
- arxiv url: http://arxiv.org/abs/2312.08195v2
- Date: Thu, 20 Mar 2025 04:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:32:11.513026
- Title: Image is All You Need to Empower Large-scale Diffusion Models for In-Domain Generation
- Title(参考訳): 大規模拡散モデルのイン・ドメイン・ジェネレーションへの活用に必要な画像
- Authors: Pu Cao, Feng Zhou, Lu Yang, Tianrui Huang, Qing Song,
- Abstract要約: ドメイン内生成は、unconditional generation、text-to-image、画像編集、3D生成など、特定のドメイン内でさまざまなタスクを実行することを目的としている。
初期の研究は通常、特定のタスクとドメインごとに特別なジェネレータを訓練する必要があり、しばしば完全にラベル付けされたデータに依存していた。
強力な生成能力と拡散モデルの幅広い応用により、私たちは、これらのモデルをドメイン内生成に活用するためにラベルのないデータを活用することを模索しています。
- 参考スコア(独自算出の注目度): 7.1629002695210024
- License:
- Abstract: In-domain generation aims to perform a variety of tasks within a specific domain, such as unconditional generation, text-to-image, image editing, 3D generation, and more. Early research typically required training specialized generators for each unique task and domain, often relying on fully-labeled data. Motivated by the powerful generative capabilities and broad applications of diffusion models, we are driven to explore leveraging label-free data to empower these models for in-domain generation. Fine-tuning a pre-trained generative model on domain data is an intuitive but challenging way and often requires complex manual hyper-parameter adjustments since the limited diversity of the training data can easily disrupt the model's original generative capabilities. To address this challenge, we propose a guidance-decoupled prior preservation mechanism to achieve high generative quality and controllability by image-only data, inspired by preserving the pre-trained model from a denoising guidance perspective. We decouple domain-related guidance from the conditional guidance used in classifier-free guidance mechanisms to preserve open-world control guidance and unconditional guidance from the pre-trained model. We further propose an efficient domain knowledge learning technique to train an additional text-free UNet copy to predict domain guidance. Besides, we theoretically illustrate a multi-guidance in-domain generation pipeline for a variety of generative tasks, leveraging multiple guidances from distinct diffusion models and conditions. Extensive experiments demonstrate the superiority of our method in domain-specific synthesis and its compatibility with various diffusion-based control methods and applications.
- Abstract(参考訳): ドメイン内生成は、unconditional generation、text-to-image、画像編集、3D生成など、特定のドメイン内でさまざまなタスクを実行することを目的としている。
初期の研究は通常、特定のタスクとドメインごとに特別なジェネレータを訓練する必要があり、しばしば完全にラベル付けされたデータに依存していた。
強力な生成能力と拡散モデルの幅広い応用により、私たちは、これらのモデルをドメイン内生成に活用するためにラベルのないデータを活用することを模索しています。
ドメインデータに事前トレーニングされた生成モデルを微調整することは直感的だが難しい方法であり、トレーニングデータの限られた多様性がモデルのオリジナルの生成能力を混乱させる可能性があるため、複雑な手動のハイパーパラメータ調整を必要とすることが多い。
この課題に対処するために,画像のみのデータによる高い生成品質と制御性を実現するための誘導分離型事前保存機構を提案する。
我々は、未学習モデルからオープンワールドコントロールガイダンスと無条件ガイダンスを保存するために、クラス化不要誘導機構で使用される条件ガイダンスからドメイン関連ガイダンスを分離する。
さらに、テキストのないUNetコピーをトレーニングしてドメインガイダンスを予測するための効率的なドメイン知識学習手法を提案する。
さらに,異なる拡散モデルと条件からの複数のガイダンスを活用することにより,様々な生成タスクのためのマルチガイダンス・イン・ドメイン生成パイプラインを理論的に記述する。
拡張実験により,ドメイン固有合成における本手法の優位性と,様々な拡散制御法や応用との整合性を実証した。
関連論文リスト
- OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction [20.43411883845885]
本研究では,非教師付き概念抽出(UCE)という,概念の人間的知識のない非教師付き概念抽出手法を提案する。
複数の概念を含むイメージを与えられたタスクは、事前訓練された拡散モデルから既存の知識のみに依存する個々の概念を抽出し、再現することを目的としている。
本稿では,事前学習した拡散モデル固有の能力を2つの側面に解き放つことで,UCEに対処するConceptExpressを提案する。
論文 参考訳(メタデータ) (2024-07-09T17:50:28Z) - Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting [51.606819347636076]
本研究では, 概念知識を損なう概念非依存オーバーフィッティングと, 限られたモダリティのカスタマイズに限定した概念特化オーバーフィッティングを分析した。
Infusionは、ターゲット概念の学習を、限られた訓練モダリティによって制限されるのを避けることができるT2Iカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-04-22T09:16:25Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。
LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2024-03-18T09:58:52Z) - Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models [72.67967883658957]
低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。
複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。
我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:58:16Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。