論文の概要: MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize
- arxiv url: http://arxiv.org/abs/2501.13349v1
- Date: Thu, 23 Jan 2025 03:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:16.413970
- Title: MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize
- Title(参考訳): MSF:マルチスケール潜在因子を用いた効率的な拡散モデル
- Authors: Haohang Xu, Longyu Chen, Shuangrui Ding, Yilin Gao, Dongsheng Jiang, Yin Li, Shugong Xu, Junqing Yu, Wei Yang,
- Abstract要約: 本稿では,階層的な視覚表現を生成するマルチスケール拡散フレームワークを提案する。
提案手法は,ImageNet 256x256ベンチマークにおいて2.2のFIDと255.4のISを実現し,ベースライン法と比較して計算コストを50%削減する。
- 参考スコア(独自算出の注目度): 27.749096921628457
- License:
- Abstract: Diffusion-based generative models have achieved remarkable progress in visual content generation. However, traditional diffusion models directly denoise the entire image from noisy inputs, disregarding the hierarchical structure present in visual signals. This method is computationally intensive, especially for high-resolution image generation. Signal processing often leverages hierarchical decompositions; for instance, Fourier analysis decomposes signals by frequency, while wavelet analysis captures localized frequency components, reflecting both spatial and frequency information simultaneously. Inspired by these principles, we propose a multiscale diffusion framework that generates hierarchical visual representations, which are subsequently integrated to form the final output. The diffusion model target, whether raw RGB pixels or latent features from a Variational Autoencoder, s divided into multiple components that each capture distinct spatial levels. The low-resolution component contains the primary informative signal, while higher-resolution components add high-frequency details, such as texture. This approach divides image generation into two stages: producing a low-resolution base signal, followed by a high-resolution residual signal. Both stages can be effectively modeled using simpler, lightweight transformer architectures compared to full-resolution generation. This decomposition is conceptually similar to wavelet decomposition but offers a more streamlined and intuitive design. Our method, termed MSF(short for Multi-Scale Factorization), achieves an FID of 2.2 and an IS of 255.4 on the ImageNet 256x256 benchmark, reducing computational costs by 50% compared to baseline methods.
- Abstract(参考訳): 拡散に基づく生成モデルは、視覚コンテンツ生成において顕著な進歩を遂げた。
しかし、従来の拡散モデルは、視覚信号に存在する階層構造を無視して、ノイズの多い入力から画像全体を直接ノイズ化する。
この方法は、特に高解像度画像生成において、計算集約性が高い。
例えば、フーリエ解析は周波数で信号を分解し、ウェーブレット解析は局所周波数成分を捉え、空間情報と周波数情報を同時に反映する。
これらの原理に着想を得て,階層的な視覚表現を生成するマルチスケール拡散フレームワークを提案する。
拡散モデルの対象は、RGB画素か変分オートエンコーダの潜時特徴かにかかわらず、それぞれ異なる空間レベルをキャプチャする複数のコンポーネントに分けられる。
低分解能成分は一次情報信号を含み、高分解能成分はテクスチャなどの高周波の詳細を付加する。
このアプローチでは、画像生成を低解像度のベース信号と高解像度の残留信号の2段階に分割する。
どちらのステージも、フルレゾリューション生成に比べてシンプルで軽量なトランスフォーマーアーキテクチャを使って効果的にモデル化できる。
この分解は概念的にはウェーブレット分解に似ているが、より簡潔で直感的な設計を提供する。
MSF(Multi-Scale Factorization)と呼ばれるこの手法は、ImageNet 256x256ベンチマークで2.2のFIDと255.4のISを達成し、ベースライン法と比較して計算コストを50%削減する。
関連論文リスト
- Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文 参考訳(メタデータ) (2024-04-27T00:12:13Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-27T06:53:16Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Dimensionality-Varying Diffusion Process [52.52681373641533]
拡散モデルは、信号破壊プロセスを逆転して新しいデータを生成することを学習する。
信号分解による前方拡散過程の理論的一般化を行う。
FFHQで訓練された拡散モデルのFIDを,52.40から10.46までの1024Times1024$解像度で改善する。
論文 参考訳(メタデータ) (2022-11-29T09:05:55Z) - Multi-scale frequency separation network for image deblurring [10.511076996096117]
本稿では,マルチスケール周波数分離ネットワーク (MSFS-Net) を用いた画像分解手法を提案する。
MSFS-Netは複数のスケールで画像の低周波・高周波情報をキャプチャする。
ベンチマークデータセットの実験により,提案したネットワークが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-01T23:48:35Z) - TWIST-GAN: Towards Wavelet Transform and Transferred GAN for
Spatio-Temporal Single Image Super Resolution [4.622977798361014]
単一画像スーパーレゾリューション(sisr)は、空間解像度の低いリモートセンシング画像から、微細な空間解像度を持つ高解像度画像を生成する。
深層学習とGAN(Generative Adversarial Network)は、単一画像超解像(SISR)の課題を突破した。
論文 参考訳(メタデータ) (2021-04-20T22:12:38Z) - Modulated Periodic Activations for Generalizable Local Functional
Representations [113.64179351957888]
我々は,複数のインスタンスに一般化し,最先端の忠実性を実現する新しい表現を提案する。
提案手法は,画像,映像,形状の汎用的な機能表現を生成し,単一信号に最適化された先行処理よりも高い再構成品質を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。