Fugu-MT 論文翻訳(概要): PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

論文の概要: PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

arxiv url: http://arxiv.org/abs/2312.16486v2
Date: Fri, 29 Dec 2023 01:57:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 19:53:39.477361
Title: PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion
Title（参考訳）: PanGu-Draw: 時間分割学習と再利用可能なクープ拡散による資源効率の良いテキスト・画像合成
Authors: Guansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu
Abstract要約: PanGu-Drawは資源効率の良いテキスト・画像合成のための新しい潜伏拡散モデルである。本稿では,様々な事前学習拡散モデルの協調利用を可能にするアルゴリズム「クープ拡散」を紹介する。 Pangu-Drawの実証的検証は、テキスト・ツー・イメージとマルチコントロール画像生成において、その例外的な長所を示している。
参考スコア（独自算出の注目度）: 45.06392070934473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current large-scale diffusion models represent a giant leap forward in conditional image synthesis, capable of interpreting diverse cues like text, human poses, and edges. However, their reliance on substantial computational resources and extensive data collection remains a bottleneck. On the other hand, the integration of existing diffusion models, each specialized for different controls and operating in unique latent spaces, poses a challenge due to incompatible image resolutions and latent space embedding structures, hindering their joint use. Addressing these constraints, we present "PanGu-Draw", a novel latent diffusion model designed for resource-efficient text-to-image synthesis that adeptly accommodates multiple control signals. We first propose a resource-efficient Time-Decoupling Training Strategy, which splits the monolithic text-to-image model into structure and texture generators. Each generator is trained using a regimen that maximizes data utilization and computational efficiency, cutting data preparation by 48% and reducing training resources by 51%. Secondly, we introduce "Coop-Diffusion", an algorithm that enables the cooperative use of various pre-trained diffusion models with different latent spaces and predefined resolutions within a unified denoising process. This allows for multi-control image synthesis at arbitrary resolutions without the necessity for additional data or retraining. Empirical validations of Pangu-Draw show its exceptional prowess in text-to-image and multi-control image generation, suggesting a promising direction for future model training efficiencies and generation versatility. The largest 5B T2I PanGu-Draw model is released on the Ascend platform. Project page: $\href{https://pangu-draw.github.io}{this~https~URL}$
Abstract（参考訳）: 現在の大規模拡散モデルは条件付き画像合成において大きな飛躍を示しており、テキスト、人間のポーズ、エッジといった多様な手がかりを解釈することができる。しかし、計算資源や膨大なデータ収集への依存は依然としてボトルネックとなっている。一方で、異なる制御とユニークな潜在空間での操作に特化した既存の拡散モデルの統合は、互換性のない画像解像度と潜在空間埋め込み構造のために課題となり、共同使用を妨げている。これらの制約に対処するため,複数の制御信号に対応可能な資源効率の高いテキスト・画像合成のための新しい潜時拡散モデルPanGu-Drawを提案する。まず,モノリシックなテキストから画像へのモデルを構造とテクスチャ生成器に分割した,リソース効率の高い時間分離トレーニング戦略を提案する。各ジェネレータは、データ利用と計算効率を最大化し、データ準備を48%削減し、トレーニングリソースを51%削減するレジームを使用してトレーニングされる。次に,異なる潜在空間と事前定義された分解能を持つ様々な事前学習拡散モデルの協調的利用を可能にするアルゴリズムであるcoop-diffusionを提案する。これにより、追加データや再トレーニングを必要とせず、任意の解像度でマルチコントロール画像合成が可能となる。 pangu-drawの実証的検証は、テキスト対画像およびマルチコントロール画像生成における例外的な能力を示し、将来のモデルのトレーニング効率と世代の汎用性に有望な方向を示している。最大の5B T2I PanGu-DrawモデルはAscendプラットフォームでリリースされた。プロジェクトページ:$\href{https://pangu-draw.github.io}{this~https~url}$

関連論文リスト

STRICT: Stress Test of Rendering Images Containing Text [11.236527918747925]
$textbfSTRICT$は、画像内のコヒーレントで命令に沿ったテキストをレンダリングする拡散モデルの能力を強調テストするために設計されたベンチマークである。プロプライエタリ版やオープンソース版など,いくつかの最先端モデルを評価し,長距離整合性と命令追従能力の持続的制限を明らかにする。
論文参考訳（メタデータ） (2025-05-25T05:37:08Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。 AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文参考訳（メタデータ） (2023-10-05T17:59:18Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文参考訳（メタデータ） (2023-07-17T17:57:56Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)
Image Generation with Multimodal Priors using Denoising Diffusion Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文参考訳（メタデータ） (2022-06-10T12:23:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。