論文の概要: FrequencyBooster: Full-Frequency Modeling for High-Fidelity Pixel Diffusion
- arxiv url: http://arxiv.org/abs/2605.17759v1
- Date: Mon, 18 May 2026 02:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.595623
- Title: FrequencyBooster: Full-Frequency Modeling for High-Fidelity Pixel Diffusion
- Title(参考訳): 周波数Booster:高忠実度画素拡散のためのフル周波数モデリング
- Authors: Lichen Ma, Zipeng Guo, Yu He, Xiaolong Fu, Luohang Liu, Jingling Fu, Junshi Huang, Yan Li,
- Abstract要約: FrequencyBoosterは、フル周波数モデリング機能を備えたピクセル拡散を、禁忌のオーバーヘッドなしに促進するように設計された、新しいフレームワークである。
我々のモデルは320エポックで256倍256$の解像度で textbf1.60 の最先端 FID を実現する。
FrequencyBoosterは512倍の512ドルの解像度で、textbf1.69のFIDを獲得し、既存のピクセル空間と潜在空間の生成モデルを大幅に上回っている。
- 参考スコア(独自算出の注目度): 15.557373713923306
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To circumvent the inherent fidelity bottlenecks and optimization misalignment of VAE-based latent diffusion, pixel-space diffusion models have emerged as a compelling end-to-end paradigm. However, existing pixel diffusion models often struggle to balance computational efficiency with the preservation of high-frequency details. They frequently resort to patch-based compression or restricted local decoding, leading to a "spectral compromise" where high-frequency and fine-grained pixel information are suppressed. To address these challenges, we propose \textbf{FrequencyBooster}, a novel framework designed to empower pixel diffusion with full-frequency modeling capabilities without prohibitive overhead. The core of our method is a high-capacity decoder that specializes in extracting exhaustive high-frequency details and low-frequency semantics, the latter of which is derived from a Diffusion Transformer (DiT) backbone. Unlike prior works that sacrifice global context for local refinement, FrequencyBooster leverages high-dimensional feature representations to maintain global structural integrity while achieving superior pixel-level precision. Extensive experiments on ImageNet demonstrate the effectiveness of our approach: our model achieves a state-of-the-art FID of \textbf{1.60} at $256 \times 256$ resolution within only 320 epochs. Furthermore, at $512 \times 512$ resolution, FrequencyBooster attains an FID of \textbf{1.69}, significantly outperforming existing pixel-space and latent-space generative models.
- Abstract(参考訳): VAEをベースとした遅延拡散の固有忠実度ボトルネックと最適化ミスアライメントを回避するため、ピクセル空間拡散モデルは魅力的なエンドツーエンドパラダイムとして現れている。
しかし、既存のピクセル拡散モデルは、しばしば計算効率と高周波の詳細の保存のバランスをとるのに苦労する。
彼らはしばしばパッチベースの圧縮や制限された局所デコードに頼り、高周波できめ細かいピクセル情報を抑圧する「スペクトル妥協」へと繋がる。
これらの課題に対処するために,フル周波数モデリング機能による画素拡散を,オーバーヘッドを抑えることなく促進する新しいフレームワークである‘textbf{FrequencyBooster} を提案する。
本手法のコアは,Diffusion Transformer (DiT) のバックボーンから全周波数の細部と低周波数のセマンティクスを抽出する高容量デコーダである。
局所的な洗練のためにグローバルなコンテキストを犠牲にする以前の作品とは異なり、FlequencyBoosterは高次元の特徴表現を活用してグローバルな構造的整合性を維持しつつ、優れたピクセルレベルの精度を実現している。
われわれのモデルは320時間以内の256$解像度で256 \times 256$でtextbf{1.60}の最先端のFIDを達成している。
さらに、512 \times 512$ の解像度で、 FrequencyBooster は \textbf{1.69} の FID を獲得し、既存のピクセル空間と潜在空間の生成モデルを大幅に上回っている。
関連論文リスト
- Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation [36.41177812868683]
遅延拡散モデルは高品質な画像を生成するのに優れるが、エンドツーエンドのモデリングの利点は失われる。
本稿では,生の自然画像上での潜伏拡散の効率性を実現するため,既存のアーキテクチャを簡易に修正した潜伏強制法を提案する。
Latent Forcingは、我々の計算スケールで拡散トランスフォーマーベースのピクセル生成のための新しい最先端を実現する。
論文 参考訳(メタデータ) (2026-02-11T22:09:58Z) - DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - DiP: Taming Diffusion Models in Pixel Space [91.51011771517683]
Diffusion Transformer (DiT) バックボーンは、効率的なグローバル構造構築のために大きなパッチで動作する。
共同トレーニングされた軽量パッチディーラーヘッドは、コンテキスト機能を活用して、きめ細かいローカル詳細を復元する。
論文 参考訳(メタデータ) (2025-11-24T06:55:49Z) - HDW-SR: High-Frequency Guided Diffusion Model based on Wavelet Decomposition for Image Super-Resolution [4.388490927225987]
ウェーブレット分解(HDW-SR)に基づく高周波誘導拡散ネットワークを提案する。
我々は残差マップのみに拡散を行い、ネットワークがより効率的に高周波情報復元に集中できるようにする。
合成データセットと実世界のデータセットの両方の実験は、HDW-SRが競合する超解像性能を達成することを示した。
論文 参考訳(メタデータ) (2025-11-17T09:25:26Z) - QMambaBSR: Burst Image Super-Resolution with Query State Space Model [55.56075874424194]
バースト超解像度は、複数のバースト低解像度フレームからサブピクセル情報を融合することにより、高画質でよりリッチな細部で高解像度の画像を再構成することを目的としている。
BusrtSRにおいて鍵となる課題は、高周波ノイズ障害を同時に抑制しつつ、ベースフレームの補完的なサブピクセルの詳細を抽出することである。
本稿では,Query State Space Model (QSSM) とAdaptive Up-Sampling Module (AdaUp) を組み合わせた新しいQuery Mamba Burst Super-Resolution (QMambaBSR) ネットワークを紹介する。
論文 参考訳(メタデータ) (2024-08-16T11:15:29Z) - Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution [19.327571569959062]
周波数領域誘導型マルチスケール拡散モデル(FDDiff)を提案する。
FDDiffは、高周波情報補完プロセスをよりきめ細かいステップに分解する。
これは、高忠実度超解像結果で先行生成法より優れる。
論文 参考訳(メタデータ) (2024-05-16T11:58:52Z) - Frequency Compensated Diffusion Model for Real-scene Dehazing [6.105813272271171]
本研究では,実ヘイズへの一般化を改善する条件付き拡散モデルに基づく脱ヘイズフレームワークについて考察する。
提案手法は, 実世界の画像において, 最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-08-21T06:50:44Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。