論文の概要: PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with
Time-Decoupled Training and Reusable Coop-Diffusion
- arxiv url: http://arxiv.org/abs/2312.16486v2
- Date: Fri, 29 Dec 2023 01:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 19:53:39.477361
- Title: PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with
Time-Decoupled Training and Reusable Coop-Diffusion
- Title(参考訳): PanGu-Draw: 時間分割学習と再利用可能なクープ拡散による資源効率の良いテキスト・画像合成
- Authors: Guansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen
Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu
- Abstract要約: PanGu-Drawは資源効率の良いテキスト・画像合成のための新しい潜伏拡散モデルである。
本稿では,様々な事前学習拡散モデルの協調利用を可能にするアルゴリズム「クープ拡散」を紹介する。
Pangu-Drawの実証的検証は、テキスト・ツー・イメージとマルチコントロール画像生成において、その例外的な長所を示している。
- 参考スコア(独自算出の注目度): 45.06392070934473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large-scale diffusion models represent a giant leap forward in
conditional image synthesis, capable of interpreting diverse cues like text,
human poses, and edges. However, their reliance on substantial computational
resources and extensive data collection remains a bottleneck. On the other
hand, the integration of existing diffusion models, each specialized for
different controls and operating in unique latent spaces, poses a challenge due
to incompatible image resolutions and latent space embedding structures,
hindering their joint use. Addressing these constraints, we present
"PanGu-Draw", a novel latent diffusion model designed for resource-efficient
text-to-image synthesis that adeptly accommodates multiple control signals. We
first propose a resource-efficient Time-Decoupling Training Strategy, which
splits the monolithic text-to-image model into structure and texture
generators. Each generator is trained using a regimen that maximizes data
utilization and computational efficiency, cutting data preparation by 48% and
reducing training resources by 51%. Secondly, we introduce "Coop-Diffusion", an
algorithm that enables the cooperative use of various pre-trained diffusion
models with different latent spaces and predefined resolutions within a unified
denoising process. This allows for multi-control image synthesis at arbitrary
resolutions without the necessity for additional data or retraining. Empirical
validations of Pangu-Draw show its exceptional prowess in text-to-image and
multi-control image generation, suggesting a promising direction for future
model training efficiencies and generation versatility. The largest 5B T2I
PanGu-Draw model is released on the Ascend platform. Project page:
$\href{https://pangu-draw.github.io}{this~https~URL}$
- Abstract(参考訳): 現在の大規模拡散モデルは条件付き画像合成において大きな飛躍を示しており、テキスト、人間のポーズ、エッジといった多様な手がかりを解釈することができる。
しかし、計算資源や膨大なデータ収集への依存は依然としてボトルネックとなっている。
一方で、異なる制御とユニークな潜在空間での操作に特化した既存の拡散モデルの統合は、互換性のない画像解像度と潜在空間埋め込み構造のために課題となり、共同使用を妨げている。
これらの制約に対処するため,複数の制御信号に対応可能な資源効率の高いテキスト・画像合成のための新しい潜時拡散モデルPanGu-Drawを提案する。
まず,モノリシックなテキストから画像へのモデルを構造とテクスチャ生成器に分割した,リソース効率の高い時間分離トレーニング戦略を提案する。
各ジェネレータは、データ利用と計算効率を最大化し、データ準備を48%削減し、トレーニングリソースを51%削減するレジームを使用してトレーニングされる。
次に,異なる潜在空間と事前定義された分解能を持つ様々な事前学習拡散モデルの協調的利用を可能にするアルゴリズムであるcoop-diffusionを提案する。
これにより、追加データや再トレーニングを必要とせず、任意の解像度でマルチコントロール画像合成が可能となる。
pangu-drawの実証的検証は、テキスト対画像およびマルチコントロール画像生成における例外的な能力を示し、将来のモデルのトレーニング効率と世代の汎用性に有望な方向を示している。
最大の5B T2I PanGu-DrawモデルはAscendプラットフォームでリリースされた。
プロジェクトページ:$\href{https://pangu-draw.github.io}{this~https~url}$
関連論文リスト
- VaLID: Variable-Length Input Diffusion for Novel View Synthesis [36.57742242154048]
新たなビュー合成(NVS)は、3次元ビジョンの基本的な問題である。
それぞれのポーズ画像ペアを別々に処理し、それらを統一された視覚表現として融合させ、モデルに注入する。
可変長入力データを固定サイズ出力データにマッピングする多視点クロス前置モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-14T12:52:53Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [68.22308781717037]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。
本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。
我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文 参考訳(メタデータ) (2023-07-17T17:57:56Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。