Fugu-MT 論文翻訳(概要): PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher

論文の概要: PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher

arxiv url: http://arxiv.org/abs/2405.14822v2
Date: Tue, 29 Oct 2024 15:26:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.677677
Title: PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher
Title（参考訳）: PaGoDA:低分解能拡散教師によるワンステップ発電機の進行的成長
Authors: Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon,
Abstract要約: PaGoDAは、ダウンサンプルデータ上でのトレーニング拡散、事前訓練された拡散の蒸留、プログレッシブ超解像という3段階のトレーニングコストを削減した、新しいパイプラインである。提案されたパイプラインでは、PaGoDAは8倍のサンプルデータで拡散モデルをトレーニングするコストを64倍に削減する。 PaGoDAのパイプラインは、遅延空間で直接適用することができ、遅延拡散モデルで事前訓練されたオートエンコーダと共に圧縮を追加する。
参考スコア（独自算出の注目度）: 55.22994720855957
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The diffusion model performs remarkable in generating high-dimensional content but is computationally intensive, especially during training. We propose Progressive Growing of Diffusion Autoencoder (PaGoDA), a novel pipeline that reduces the training costs through three stages: training diffusion on downsampled data, distilling the pretrained diffusion, and progressive super-resolution. With the proposed pipeline, PaGoDA achieves a $64\times$ reduced cost in training its diffusion model on 8x downsampled data; while at the inference, with the single-step, it performs state-of-the-art on ImageNet across all resolutions from 64x64 to 512x512, and text-to-image. PaGoDA's pipeline can be applied directly in the latent space, adding compression alongside the pre-trained autoencoder in Latent Diffusion Models (e.g., Stable Diffusion). The code is available at https://github.com/sony/pagoda.
Abstract（参考訳）: 拡散モデルは高次元コンテンツの生成において顕著に機能するが、特に訓練中は計算集約的である。本研究では, ダウンサンプルデータ上でのトレーニング拡散, 未学習拡散の蒸留, 進行超解像の3段階を通じて, トレーニングコストを削減した新しいパイプラインPaGoDAを提案する。提案されたパイプラインでは、PaGoDAは8倍のサンプルデータで拡散モデルをトレーニングするコストを6,4\times$で削減している。 PaGoDAのパイプラインは、遅延空間に直接適用することができ、遅延拡散モデル(例えば、安定拡散)の事前訓練されたオートエンコーダと共に圧縮を追加する。コードはhttps://github.com/sony/pagoda.comで入手できる。

関連論文リスト

Fine-structure Preserved Real-world Image Super-resolution via Transfer VAE Training [14.058527210122831]
我々は、事前訓練されたUNetに適応しつつ、8$times$ダウンサンプルのVAEを4$times$1に転送するためのTransfer VAE Training(TVT)戦略を提案する。 TVT戦略は、新しいエンコーダとデコーダのペアを元のVAEラテント空間と整合させ、画像の細部を拡大する。
論文参考訳（メタデータ） (2025-07-27T14:11:29Z)
SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation [12.842428916585217]
分散マッチング蒸留 (DMD) は, 安定拡散 (SD) 1.5 などのテキスト・画像拡散モデルに適用されている。しかし、バニラMDDはSD 3.5やFLUXのような大規模フローベースのテキスト・ツー・イメージモデルにおいて収束困難に悩まされている。
論文参考訳（メタデータ） (2025-05-31T11:59:02Z)
ProReflow: Progressive Reflow with Decomposed Velocity [52.249464542399636]
フローマッチングは、拡散モデルの拡散過程を数ステップまたは1ステップ生成のために直線に再フローすることを目的としている。局所的な時間ステップで拡散モデルを段階的に再フローし,拡散全体を進行させるプログレッシブ・リフローを導入する。また,フローマッチングにおける方向整合の重要性を強調し,位置整合性を考慮したV-Predictionを導入する。
論文参考訳（メタデータ） (2025-03-05T04:50:53Z)
Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文参考訳（メタデータ） (2024-10-11T05:03:56Z)
Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文参考訳（メタデータ） (2024-10-05T16:41:36Z)
Accelerating Parallel Sampling of Diffusion Models [25.347710690711562]
自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する新しい手法を提案する。これらの手法を適用したParaTAAは、普遍的でトレーニング不要な並列サンプリングアルゴリズムである。実験により、ParaTAAは一般的なシーケンシャルサンプリングアルゴリズムで要求される推論ステップを4$sim$14倍に削減できることを示した。
論文参考訳（メタデータ） (2024-02-15T14:27:58Z)
HiPA: Enabling One-Step Text-to-Image Diffusion Models via High-Frequency-Promoting Adaptation [47.43155993432259]
High- frequency-Promoting Adaptation (HiPA) は、一段階のテキスト・画像拡散を可能にするパラメータ効率の高い手法である。 HiPAは、高度拡散モデルの低周波数能力を高めるために、一段階の低ランク適応器の訓練に重点を置いている。プログレッシブ蒸留と比較すると、HiPAは1段階のテキスト・ツー・イメージ・ジェネレーションにおいてはるかに優れた性能を発揮する。
論文参考訳（メタデータ） (2023-11-30T00:14:07Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文参考訳（メタデータ） (2023-06-01T17:59:25Z)
Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。 Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文参考訳（メタデータ） (2023-04-25T02:35:54Z)
Variational Diffusion Auto-encoder: Latent Space Extraction from Pre-trained Diffusion Models [0.0]
可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
論文参考訳（メタデータ） (2023-04-24T14:44:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。