Fugu-MT 論文翻訳(概要): Latent Wavelet Diffusion: Enabling 4K Image Synthesis for Free

論文の概要: Latent Wavelet Diffusion: Enabling 4K Image Synthesis for Free

arxiv url: http://arxiv.org/abs/2506.00433v2
Date: Tue, 03 Jun 2025 04:38:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:32.995715
Title: Latent Wavelet Diffusion: Enabling 4K Image Synthesis for Free
Title（参考訳）: 遅延ウェーブレット拡散:自由な4K画像合成を実現する
Authors: Luigi Sigillo, Shengfeng He, Danilo Comminiello,
Abstract要約: 遅延ウェーブレット拡散(Latent Wavelet Diffusion, LWD)は、任意の遅延拡散モデルが、超高解像度画像生成(2Kから4K)に無償でスケールできる軽量フレームワークである。 LWDはアーキテクチャの変更を必要とせず、追加の計算オーバーヘッドも発生しない。超高解像度画像合成において、知覚品質を一貫して改善し、FIDを低減し、強力なベースラインモデルより優れている。
参考スコア（独自算出の注目度）: 31.515710473565925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: High-resolution image synthesis remains a core challenge in generative modeling, particularly in balancing computational efficiency with the preservation of fine-grained visual detail. We present Latent Wavelet Diffusion (LWD), a lightweight framework that enables any latent diffusion model to scale to ultra-high-resolution image generation (2K to 4K) for free. LWD introduces three key components: (1) a scale-consistent variational autoencoder objective that enhances the spectral fidelity of latent representations; (2) wavelet energy maps that identify and localize detail-rich spatial regions within the latent space; and (3) a time-dependent masking strategy that focuses denoising supervision on high-frequency components during training. LWD requires no architectural modifications and incurs no additional computational overhead. Despite its simplicity, it consistently improves perceptual quality and reduces FID in ultra-high-resolution image synthesis, outperforming strong baseline models. These results highlight the effectiveness of frequency-aware, signal-driven supervision as a principled and efficient approach for high-resolution generative modeling.
Abstract（参考訳）: 高解像度画像合成は、生成モデリングにおいて、特に計算効率と微細な視覚的ディテールの保存のバランスをとる上で、依然として重要な課題である。 LWD(Latent Wavelet Diffusion)は,任意の遅延拡散モデルを用いて,超高解像度画像生成(2K〜4K)を無償でスケール可能な軽量フレームワークである。 LWDは,(1)潜伏表現のスペクトル忠実度を高めるスケール一貫性のある変分オートエンコーダ目標,(2)潜伏空間内の細部の多い空間領域を特定・局所化するウェーブレットエネルギーマップ,(3)訓練中の高周波成分の監視に焦点をあてる時間依存マスキング戦略,の3つの主要な構成要素を紹介する。 LWDはアーキテクチャの変更を必要とせず、追加の計算オーバーヘッドも発生しない。その単純さにもかかわらず、知覚品質を一貫して改善し、高解像度画像合成におけるFIDを低減し、強力なベースラインモデルより優れている。これらの結果は、高分解能生成モデルのための原理的かつ効率的なアプローチとして、周波数認識、信号駆動型監視の有効性を強調した。

関連論文リスト

GEWDiff: Geometric Enhanced Wavelet-based Diffusion Model for Hyperspectral Image Super-resolution [19.608052570649303]
超解像4回で超スペクトル像を再構成するための新しい枠組みを提案する。スペクトル空間情報を保存しながら、効率よくHSIを潜在空間に圧縮するウェーブレットベースのエンコーダデコーダが導入された。本モデルでは, 忠実度, スペクトル精度, 視覚リアリズム, 明度など, 複数次元にわたる最先端の成果を示した。
論文参考訳（メタデータ） (2025-11-10T13:44:16Z)
Latent Harmony: Synergistic Unified UHD Image Restoration via Latent Space Regularization and Controllable Refinement [89.99237142387655]
LH-VAEを導入し、視覚的意味的制約や進行的劣化による意味的堅牢性を高める。 Latent Harmonyは、UHD修復のためのVAEを再定義する2段階のフレームワークである。実験により、Latent HarmonyはUHDおよび標準解像度タスクにまたがって最先端のパフォーマンスを実現し、効率、知覚品質、再現精度を効果的にバランスさせることが示されている。
論文参考訳（メタデータ） (2025-10-09T08:54:26Z)
Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-23T17:57:16Z)
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling [1.9474278832087901]
HiWaveは、超高解像度画像合成における視覚的忠実度と構造的コヒーレンスを大幅に向上させる、トレーニング不要でゼロショットのアプローチである。ユーザによる調査では、HiWaveのパフォーマンスが80%以上の比較で最先端の代替品よりも好まれていたことが確認された。
論文参考訳（メタデータ） (2025-06-25T13:58:37Z)
FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文参考訳（メタデータ） (2025-06-17T02:33:42Z)
Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文参考訳（メタデータ） (2025-05-22T02:57:23Z)
Quaternion Wavelet-Conditioned Diffusion Models for Image Super-Resolution [7.986370916847687]
本稿では、第4次ウェーブレット前処理フレームワークと遅延拡散モデルを統合する新しいSRフレームワークResQuを紹介する。提案手法は,四元系ウェーブレットの埋め込みを利用して,様々な段階で動的に統合される条件付けプロセスを強化する。提案手法は,多くの場合において,知覚品質および標準評価指標における既存手法よりも優れる,優れたSR結果が得られる。
論文参考訳（メタデータ） (2025-05-01T06:17:33Z)
V2V3D: View-to-View Denoised 3D Reconstruction for Light-Field Microscopy [12.356249860549472]
光電場顕微鏡(LFM)は、スナップショットベースで大規模な3D蛍光画像の撮影が可能であるため、注目されている。既存のLFM再構成アルゴリズムは、センサーノイズに非常に敏感であるか、あるいはトレーニングのためにハード・トゥ・ザ・グラウンド・トゥルース・アノテート・データを必要とする。本稿では,V2V3Dについて紹介する。V2V3Dは教師なしのビュー2ビューベースのフレームワークで,画像復調と3D再構成の協調最適化のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-04-10T15:29:26Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [18.73205699076486]
マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
論文参考訳（メタデータ） (2025-01-23T03:18:23Z)
Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文参考訳（メタデータ） (2023-11-30T05:15:35Z)
Stage-by-stage Wavelet Optimization Refinement Diffusion Model for Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文参考訳（メタデータ） (2023-08-30T10:48:53Z)
HDNet: High-resolution Dual-domain Learning for Spectral Compressive Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文参考訳（メタデータ） (2022-03-04T06:37:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。