論文の概要: Latent Wavelet Diffusion: Enabling 4K Image Synthesis for Free
- arxiv url: http://arxiv.org/abs/2506.00433v2
- Date: Tue, 03 Jun 2025 04:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.995715
- Title: Latent Wavelet Diffusion: Enabling 4K Image Synthesis for Free
- Title(参考訳): 遅延ウェーブレット拡散:自由な4K画像合成を実現する
- Authors: Luigi Sigillo, Shengfeng He, Danilo Comminiello,
- Abstract要約: 遅延ウェーブレット拡散(Latent Wavelet Diffusion, LWD)は、任意の遅延拡散モデルが、超高解像度画像生成(2Kから4K)に無償でスケールできる軽量フレームワークである。
LWDはアーキテクチャの変更を必要とせず、追加の計算オーバーヘッドも発生しない。
超高解像度画像合成において、知覚品質を一貫して改善し、FIDを低減し、強力なベースラインモデルより優れている。
- 参考スコア(独自算出の注目度): 31.515710473565925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution image synthesis remains a core challenge in generative modeling, particularly in balancing computational efficiency with the preservation of fine-grained visual detail. We present Latent Wavelet Diffusion (LWD), a lightweight framework that enables any latent diffusion model to scale to ultra-high-resolution image generation (2K to 4K) for free. LWD introduces three key components: (1) a scale-consistent variational autoencoder objective that enhances the spectral fidelity of latent representations; (2) wavelet energy maps that identify and localize detail-rich spatial regions within the latent space; and (3) a time-dependent masking strategy that focuses denoising supervision on high-frequency components during training. LWD requires no architectural modifications and incurs no additional computational overhead. Despite its simplicity, it consistently improves perceptual quality and reduces FID in ultra-high-resolution image synthesis, outperforming strong baseline models. These results highlight the effectiveness of frequency-aware, signal-driven supervision as a principled and efficient approach for high-resolution generative modeling.
- Abstract(参考訳): 高解像度画像合成は、生成モデリングにおいて、特に計算効率と微細な視覚的ディテールの保存のバランスをとる上で、依然として重要な課題である。
LWD(Latent Wavelet Diffusion)は,任意の遅延拡散モデルを用いて,超高解像度画像生成(2K〜4K)を無償でスケール可能な軽量フレームワークである。
LWDは,(1)潜伏表現のスペクトル忠実度を高めるスケール一貫性のある変分オートエンコーダ目標,(2)潜伏空間内の細部の多い空間領域を特定・局所化するウェーブレットエネルギーマップ,(3)訓練中の高周波成分の監視に焦点をあてる時間依存マスキング戦略,の3つの主要な構成要素を紹介する。
LWDはアーキテクチャの変更を必要とせず、追加の計算オーバーヘッドも発生しない。
その単純さにもかかわらず、知覚品質を一貫して改善し、高解像度画像合成におけるFIDを低減し、強力なベースラインモデルより優れている。
これらの結果は、高分解能生成モデルのための原理的かつ効率的なアプローチとして、周波数認識、信号駆動型監視の有効性を強調した。
関連論文リスト
- V2V3D: View-to-View Denoised 3D Reconstruction for Light-Field Microscopy [12.356249860549472]
光電場顕微鏡(LFM)は、スナップショットベースで大規模な3D蛍光画像の撮影が可能であるため、注目されている。
既存のLFM再構成アルゴリズムは、センサーノイズに非常に敏感であるか、あるいはトレーニングのためにハード・トゥ・ザ・グラウンド・トゥルース・アノテート・データを必要とする。
本稿では,V2V3Dについて紹介する。V2V3Dは教師なしのビュー2ビューベースのフレームワークで,画像復調と3D再構成の協調最適化のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-10T15:29:26Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。