Fugu-MT 論文翻訳(概要): Wavelet Diffusion Models are fast and scalable Image Generators

論文の概要: Wavelet Diffusion Models are fast and scalable Image Generators

arxiv url: http://arxiv.org/abs/2211.16152v1
Date: Tue, 29 Nov 2022 12:25:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 17:24:55.242221
Title: Wavelet Diffusion Models are fast and scalable Image Generators
Title（参考訳）: ウェーブレット拡散モデルは高速でスケーラブルな画像生成器である
Authors: Hao Phung, Quan Dao, Anh Tran
Abstract要約: 拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。本稿では,新しいウェーブレットベースの拡散構造を提案することにより,速度ギャップを低減することを目的とする。 CelebA-HQ, CIFAR-10, LSUN-Church, STL-10データセットによる実験結果から, 実時間および高忠実拡散モデルを提供するための基盤となることが証明された。
参考スコア（独自算出の注目度）: 3.222802562733787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models are rising as a powerful solution for high-fidelity image generation, which exceeds GANs in quality in many circumstances. However, their slow training and inference speed is a huge bottleneck, blocking them from being used in real-time applications. A recent DiffusionGAN method significantly decreases the models' running time by reducing the number of sampling steps from thousands to several, but their speeds still largely lag behind the GAN counterparts. This paper aims to reduce the speed gap by proposing a novel wavelet-based diffusion structure. We extract low-and-high frequency components from both image and feature levels via wavelet decomposition and adaptively handle these components for faster processing while maintaining good generation quality. Furthermore, we propose to use a reconstruction term, which effectively boosts the model training convergence. Experimental results on CelebA-HQ, CIFAR-10, LSUN-Church, and STL-10 datasets prove our solution is a stepping-stone to offering real-time and high-fidelity diffusion models. Our code and pre-trained checkpoints will be available at \url{https://github.com/VinAIResearch/WaveDiff.git}.
Abstract（参考訳）: 拡散モデルは高忠実度画像生成の強力なソリューションとして増加しており、多くの状況においてGANを超える。しかし、彼らの遅いトレーニングと推論速度は大きなボトルネックであり、リアルタイムアプリケーションでの使用を妨げている。最近のDiffusionGAN法では、サンプリングステップの数を数千から数に削減することで、モデルの実行時間を大幅に短縮するが、その速度はGANよりもかなり遅れている。本稿では,新しいウェーブレット拡散構造を提案することにより,速度ギャップを低減することを目的とする。ウェーブレット分解によって画像と特徴レベルの両方から低周波数と高周波数のコンポーネントを抽出し、これらのコンポーネントを適応的に処理し、優れた生成品質を維持しつつ処理を高速化する。さらに,モデルトレーニングの収束を効果的に促進する再構築項の使用を提案する。 CelebA-HQ, CIFAR-10, LSUN-Church, STL-10データセットによる実験結果から, 実時間および高忠実拡散モデルを提供するための基盤となる。私たちのコードと事前トレーニングされたチェックポイントは、 \url{https://github.com/VinAIResearch/WaveDiff.git}で利用可能です。

関連論文リスト

FastWave: Optimized Diffusion Model for Audio Super-Resolution [0.0]
オーディオ・スーパー・リゾリューション(Audio Super-Resolution)は、高いサンプリングレートでサンプリングされるような、与えられた信号の高品質な評価を目的とした一連の手法である。本稿では,拡散モデルのトレーニングにおける最近の進歩を再考し,48kHz以上の試料レートから超高分解能に応用する手法を提案する。我々のモデルであるFastWaveは、約50GFLOPの計算複雑性と1.3Mのパラメータを持ち、最近提案された拡散型およびフローベースのソリューションの大部分よりも少ないリソースでトレーニングできる。
論文参考訳（メタデータ） (2026-03-04T14:41:02Z)
Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration [58.19554276924402]
スペクトル拡散特徴予測器(Spectrum)を提案する。我々はFLUX.1で4.79$times$スピードアップ、Wan2.1-14Bで4.67$times$スピードアップを達成する。
論文参考訳（メタデータ） (2026-03-02T08:59:11Z)
CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。 ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文参考訳（メタデータ） (2025-07-21T05:48:47Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文参考訳（メタデータ） (2024-10-23T15:34:06Z)
FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。 FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文参考訳（メタデータ） (2024-09-26T17:59:51Z)
Latent Denoising Diffusion GAN: Faster sampling, Higher image quality [0.0]
Latent Denoising Diffusion GANは、トレーニング済みのオートエンコーダを使用して、画像をコンパクトなLatent空間に圧縮する。従来のDiffusionGANやWavelet Diffusionと比較して,評価指標の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-06-17T16:32:23Z)
Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文参考訳（メタデータ） (2024-03-12T05:06:07Z)
RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction [12.64898580131053]
本稿では,メルスペクトルや離散音響トークンから高忠実度音声波形を再構成する,最先端マルチバンド整流流法RFWaveを紹介する。 RFWaveは複雑なスペクトログラムを独自に生成し、フレームレベルで動作し、全てのサブバンドを同時に処理して効率を向上する。実験により、RFWaveは優れた再構成品質を提供するだけでなく、計算効率も非常に優れており、GPU上でのオーディオ生成は、リアルタイムよりも最大160倍高速であることがわかった。
論文参考訳（メタデータ） (2024-03-08T03:16:47Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
Towards More Accurate Diffusion Model Acceleration with A Timestep Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文参考訳（メタデータ） (2023-10-14T02:19:07Z)
ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文参考訳（メタデータ） (2023-07-23T15:10:02Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)
WaveDM: Wavelet-Based Diffusion Models for Image Restoration [43.254438752311714]
Wavelet-based Diffusion Model (WaveDM) は、ウェーブレット変換後の劣化画像のウェーブレットスペクトルに条件付きウェーブレット領域におけるクリーン画像の分布を学習する。 WaveDMは、従来のワンパス手法に匹敵する効率で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-23T08:41:04Z)
Accelerating Score-based Generative Models for High-Resolution Image Synthesis [42.076244561541706]
スコアベース生成モデル(SGM)は、最近、将来性のある生成モデルのクラスとして登場した。本研究では,SGMによる高分解能発生の加速について考察する。本稿では,空間および周波数領域の構造的先行性を活用することによって,TDAS(Target Distribution Smpling Aware)手法を提案する。
論文参考訳（メタデータ） (2022-06-08T17:41:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。