論文の概要: Latent Wavelet Diffusion For Ultra-High-Resolution Image Synthesis
- arxiv url: http://arxiv.org/abs/2506.00433v3
- Date: Wed, 24 Sep 2025 15:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 16:23:42.24507
- Title: Latent Wavelet Diffusion For Ultra-High-Resolution Image Synthesis
- Title(参考訳): 超高分解能画像合成のための潜在ウェーブレット拡散
- Authors: Luigi Sigillo, Shengfeng He, Danilo Comminiello,
- Abstract要約: 超高分解能(2K-4K)画像合成におけるディテールとテクスチャの忠実度を大幅に向上させる軽量トレーニングフレームワークであるLatent Wavelet Diffusion (LWD)を提案する。
LWDはウェーブレットエネルギーマップから導かれる新しい周波数対応マスキング戦略を導入し、潜在空間の詳細な領域にトレーニングプロセスを動的に焦点をあてる。
- 参考スコア(独自算出の注目度): 56.311477476580926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution image synthesis remains a core challenge in generative modeling, particularly in balancing computational efficiency with the preservation of fine-grained visual detail. We present Latent Wavelet Diffusion (LWD), a lightweight training framework that significantly improves detail and texture fidelity in ultra-high-resolution (2K-4K) image synthesis. LWD introduces a novel, frequency-aware masking strategy derived from wavelet energy maps, which dynamically focuses the training process on detail-rich regions of the latent space. This is complemented by a scale-consistent VAE objective to ensure high spectral fidelity. The primary advantage of our approach is its efficiency: LWD requires no architectural modifications and adds zero additional cost during inference, making it a practical solution for scaling existing models. Across multiple strong baselines, LWD consistently improves perceptual quality and FID scores, demonstrating the power of signal-driven supervision as a principled and efficient path toward high-resolution generative modeling.
- Abstract(参考訳): 高解像度画像合成は、生成モデリングにおいて、特に計算効率と微細な視覚的ディテールの保存のバランスをとる上で、依然として重要な課題である。
超高分解能(2K-4K)画像合成におけるディテールとテクスチャの忠実度を大幅に向上させる軽量トレーニングフレームワークであるLatent Wavelet Diffusion (LWD)を提案する。
LWDはウェーブレットエネルギーマップから導かれる新しい周波数対応マスキング戦略を導入し、潜在空間の詳細な領域にトレーニングプロセスを動的に焦点をあてる。
これは、高スペクトル忠実度を確保するためのスケール一貫性のVAE目標によって補完される。
LWDはアーキテクチャの変更を必要とせず、推論中に追加コストをゼロにするので、既存のモデルをスケールするための実用的なソリューションになります。
複数の強いベースラインにまたがって、LWDは知覚品質とFIDスコアを一貫して改善し、高分解能生成モデルへの原則的かつ効率的な経路として信号駆動型監視の力を示す。
関連論文リスト
- Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling [1.9474278832087901]
HiWaveは、超高解像度画像合成における視覚的忠実度と構造的コヒーレンスを大幅に向上させる、トレーニング不要でゼロショットのアプローチである。
ユーザによる調査では、HiWaveのパフォーマンスが80%以上の比較で最先端の代替品よりも好まれていたことが確認された。
論文 参考訳(メタデータ) (2025-06-25T13:58:37Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - V2V3D: View-to-View Denoised 3D Reconstruction for Light-Field Microscopy [12.356249860549472]
光電場顕微鏡(LFM)は、スナップショットベースで大規模な3D蛍光画像の撮影が可能であるため、注目されている。
既存のLFM再構成アルゴリズムは、センサーノイズに非常に敏感であるか、あるいはトレーニングのためにハード・トゥ・ザ・グラウンド・トゥルース・アノテート・データを必要とする。
本稿では,V2V3Dについて紹介する。V2V3Dは教師なしのビュー2ビューベースのフレームワークで,画像復調と3D再構成の協調最適化のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-10T15:29:26Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [18.73205699076486]
マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。
我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。
提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
論文 参考訳(メタデータ) (2025-01-23T03:18:23Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。