Fugu-MT 論文翻訳(概要): Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

論文の概要: Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

arxiv url: http://arxiv.org/abs/2402.10491v1
Date: Fri, 16 Feb 2024 07:48:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 17:03:58.844327
Title: Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation
Title（参考訳）: 安価スケーリング:高分解能適応のための自己カスケード拡散モデル
Authors: Lanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen
Abstract要約: 本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
参考スコア（独自算出の注目度）: 112.08287900261898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have proven to be highly effective in image and video generation; however, they still face composition challenges when generating images of varying sizes due to single-scale training data. Adapting large pre-trained diffusion models for higher resolution demands substantial computational and optimization resources, yet achieving a generation capability comparable to low-resolution models remains elusive. This paper proposes a novel self-cascade diffusion model that leverages the rich knowledge gained from a well-trained low-resolution model for rapid adaptation to higher-resolution image and video generation, employing either tuning-free or cheap upsampler tuning paradigms. Integrating a sequence of multi-scale upsampler modules, the self-cascade diffusion model can efficiently adapt to a higher resolution, preserving the original composition and generation capabilities. We further propose a pivot-guided noise re-schedule strategy to speed up the inference process and improve local structural details. Compared to full fine-tuning, our approach achieves a 5X training speed-up and requires only an additional 0.002M tuning parameters. Extensive experiments demonstrate that our approach can quickly adapt to higher resolution image and video synthesis by fine-tuning for just 10k steps, with virtually no additional inference time.
Abstract（参考訳）: 拡散モデルは画像および映像生成に非常に有効であることが証明されているが、単一スケールのトレーニングデータによって様々なサイズの画像を生成する場合、構成上の課題に直面している。大規模な事前学習拡散モデルを高解像度に適応させるには、かなりの計算資源と最適化資源が必要であるが、低解像度モデルに匹敵する生成能力を達成することは、いまだ明白である。本稿では,高解像度画像やビデオ生成への高速適応のために,高度に訓練された低解像度モデルから得られる豊富な知識を活用し,チューニング不要あるいは安価なアップサンプラーチューニングパラダイムを利用する,新しい自己カスケード拡散モデルを提案する。マルチスケールアップサンプラーモジュールのシーケンスを統合することで、自己カスケード拡散モデルは、元の合成と生成能力を保ちながら、高分解能に効率的に適応することができる。さらに,推定過程の高速化と局所構造改善のためのピボット誘導型雑音再スケジュール手法を提案する。完全微調整と比較して,本手法は5倍のトレーニング高速化を実現し,さらに0.002Mのチューニングパラメータを必要とする。広汎な実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることが示された。

関連論文リスト

Self-Cascaded Diffusion Models for Arbitrary-Scale Image Super-Resolution [9.322053509028832]
任意スケール画像超解像のための自己カスケード拡散フレームワークCasArbiを提案する。座標誘導残差拡散モデルにより連続画像表現の学習が可能となる。私たちの実験では、CasArbiは知覚と歪みの両方のパフォーマンス指標において、先行技術よりも優れています。
論文参考訳（メタデータ） (2025-06-09T14:43:21Z)
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion [50.43304425256732]
FreeScaleは、スケール融合による高解像度のビジュアル生成を可能にする、チューニング不要な推論パラダイムである。画像モデルとビデオモデルの両方において高解像度の視覚生成機能を拡張する。
論文参考訳（メタデータ） (2024-12-12T18:59:59Z)
Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文参考訳（メタデータ） (2024-12-08T11:36:32Z)
VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文参考訳（メタデータ） (2024-11-29T08:10:49Z)
Advancing Diffusion Models: Alias-Free Resampling and Enhanced Rotational Equivariance [0.0]
拡散モデルは、モデルによって引き起こされたアーティファクトと、画像の忠実性に制限された安定性によって、依然として挑戦されている。拡散モデルのUNetアーキテクチャにエイリアスフリー再サンプリング層を統合することを提案する。 CIFAR-10, MNIST, MNIST-Mなどのベンチマークデータを用いた実験の結果, 画像品質が一貫した向上を示した。
論文参考訳（メタデータ） (2024-11-14T04:23:28Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning [38.560064789022704]
MegaFusionは、既存の拡散ベースのテキスト画像モデルを拡張して、効率的な高解像度生成を実現している。我々は、異なる解像度でデノナイジングプロセスをブリッジするために、革新的なトランケートとリレー戦略を採用しています。拡張畳み込みとノイズ再スケジューリングを統合することで、より高分解能のモデルに先行するモデルをさらに適応させる。
論文参考訳（メタデータ） (2024-08-20T16:53:34Z)
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T16:10:31Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
Upsample Guidance: Scale Up Diffusion Models without Training [0.0]
事前学習した拡散モデルを適用して高解像度画像を生成する手法であるアップサンプルガイダンスを導入する。注目すべきは、このテクニックは追加のトレーニングや外部モデルへの依存を必要としないことだ。アップサンプルガイダンスは,画素空間,潜時空間,ビデオ拡散モデルなど,様々なモデルに適用可能であることを示す。
論文参考訳（メタデータ） (2024-04-02T07:49:08Z)
FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:33Z)
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文参考訳（メタデータ） (2023-10-11T17:52:39Z)
A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文参考訳（メタデータ） (2021-12-07T05:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。