論文の概要: MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize
- arxiv url: http://arxiv.org/abs/2501.13349v2
- Date: Mon, 30 Jun 2025 09:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:38.859396
- Title: MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize
- Title(参考訳): MSF:マルチスケール潜在因子を用いた効率的な拡散モデル
- Authors: Haohang Xu, Longyu Chen, Yichen Zhang, Shuangrui Ding, Zhipeng Zhang,
- Abstract要約: マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。
我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。
提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
- 参考スコア(独自算出の注目度): 18.73205699076486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion-based generative models have made significant strides in visual content creation, conventional approaches face computational challenges, especially for high-resolution images, as they denoise the entire image from noisy inputs. This contrasts with signal processing techniques, such as Fourier and wavelet analyses, which often employ hierarchical decompositions. Inspired by such principles, particularly the idea of signal separation, we introduce a diffusion framework leveraging multi-scale latent factorization. Our framework uniquely decomposes the denoising target, typically latent features from a pretrained Variational Autoencoder, into a low-frequency base signal capturing core structural information and a high-frequency residual signal that contributes finer, high-frequency details like textures. This decomposition into base and residual components directly informs our two-stage image generation process, which first produces the low-resolution base, followed by the generation of the high-resolution residual. Our proposed architecture facilitates reduced sampling steps during the residual learning stage, owing to the inherent ease of modeling residual information, which confers advantages over conventional full-resolution generation techniques. This specific approach of decomposing the signal into a base and a residual, conceptually akin to how wavelet analysis can separate different frequency bands, yields a more streamlined and intuitive design distinct from generic hierarchical models. Our method, \name\ (Multi-Scale Factorization), demonstrates its effectiveness by achieving FID scores of 2.08 ($256\times256$) and 2.47 ($512\times512$) on class-conditional ImageNet benchmarks, outperforming the DiT baseline (2.27 and 3.04 respectively) while also delivering a $4\times$ speed-up with the same number of sampling steps.
- Abstract(参考訳): 拡散に基づく生成モデルは、視覚コンテンツ生成において大きな進歩を遂げてきたが、従来のアプローチは、特に高解像度画像において、ノイズのある入力から画像全体をノイズにかけるため、計算上の課題に直面している。
これはフーリエやウェーブレット解析のような信号処理技術とは対照的であり、階層的な分解を用いることが多い。
このような原理,特に信号分離の考え方に着想を得て,多スケール潜在因子化を利用した拡散フレームワークを導入する。
本フレームワークは,従来トレーニングされていた変分オートエンコーダの遅延特徴を,低周波ベース信号と高周波残差信号に分解し,テクスチャのような微細で高周波の細部に寄与する。
この基底成分と残留成分への分解は、まず低分解能基を生成し、次いで高分解能残基を生成する2段階画像生成プロセスを直接通知する。
提案アーキテクチャは,従来のフルレゾリューション生成技術よりも有利な残差情報モデリングが本質的に容易であることから,残差学習段階におけるサンプリングステップの削減を容易にする。
シグナルをベースと残基に分解するこの特定のアプローチは、ウェーブレット解析が周波数帯域を分離する方法に似ており、一般的な階層モデルとは異なるより合理化され直感的な設計をもたらす。
提案手法は,FIDスコア2.08 (256\times256$) と2.47 (512\times512$) をクラス条件のImageNetベンチマークで達成し,DiTベースライン(2.27,3.04) を上回り,同じサンプリングステップ数で4\times$ の高速化を実現した。
関連論文リスト
- Diffusion Models for Solving Inverse Problems via Posterior Sampling with Piecewise Guidance [52.705112811734566]
断片的なガイダンススキームを用いて,逆問題を解決するための新しい拡散型フレームワークが導入された。
提案手法は問題に依存しず,様々な逆問題に容易に適応できる。
このフレームワークは, (4時間), (8時間) の超分解能タスクに対して, (23%), (24%) および (24%) の無作為マスクを塗布する場合の (25%) の推論時間を短縮する。
論文 参考訳(メタデータ) (2025-07-22T19:35:14Z) - HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling [1.9474278832087901]
HiWaveは、超高解像度画像合成における視覚的忠実度と構造的コヒーレンスを大幅に向上させる、トレーニング不要でゼロショットのアプローチである。
ユーザによる調査では、HiWaveのパフォーマンスが80%以上の比較で最先端の代替品よりも好まれていたことが確認された。
論文 参考訳(メタデータ) (2025-06-25T13:58:37Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。
画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。
高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文 参考訳(メタデータ) (2025-06-19T13:28:09Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文 参考訳(メタデータ) (2024-04-27T00:12:13Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-27T06:53:16Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Dimensionality-Varying Diffusion Process [52.52681373641533]
拡散モデルは、信号破壊プロセスを逆転して新しいデータを生成することを学習する。
信号分解による前方拡散過程の理論的一般化を行う。
FFHQで訓練された拡散モデルのFIDを,52.40から10.46までの1024Times1024$解像度で改善する。
論文 参考訳(メタデータ) (2022-11-29T09:05:55Z) - Multi-scale frequency separation network for image deblurring [10.511076996096117]
本稿では,マルチスケール周波数分離ネットワーク (MSFS-Net) を用いた画像分解手法を提案する。
MSFS-Netは複数のスケールで画像の低周波・高周波情報をキャプチャする。
ベンチマークデータセットの実験により,提案したネットワークが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-01T23:48:35Z) - TWIST-GAN: Towards Wavelet Transform and Transferred GAN for
Spatio-Temporal Single Image Super Resolution [4.622977798361014]
単一画像スーパーレゾリューション(sisr)は、空間解像度の低いリモートセンシング画像から、微細な空間解像度を持つ高解像度画像を生成する。
深層学習とGAN(Generative Adversarial Network)は、単一画像超解像(SISR)の課題を突破した。
論文 参考訳(メタデータ) (2021-04-20T22:12:38Z) - Modulated Periodic Activations for Generalizable Local Functional
Representations [113.64179351957888]
我々は,複数のインスタンスに一般化し,最先端の忠実性を実現する新しい表現を提案する。
提案手法は,画像,映像,形状の汎用的な機能表現を生成し,単一信号に最適化された先行処理よりも高い再構成品質を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:04Z) - Identity Enhanced Residual Image Denoising [61.75610647978973]
我々は、アイデンティティマッピングモジュールのチェーンと、画像の復号化のための残像アーキテクチャの残像からなる、完全な畳み込みネットワークモデルを学ぶ。
提案するネットワークは,従来の最先端・CNNアルゴリズムよりも極めて高い数値精度と画像品質を実現している。
論文 参考訳(メタデータ) (2020-04-26T04:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。