論文の概要: OMGSR: You Only Need One Mid-timestep Guidance for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2508.08227v1
- Date: Mon, 11 Aug 2025 17:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.246079
- Title: OMGSR: You Only Need One Mid-timestep Guidance for Real-World Image Super-Resolution
- Title(参考訳): OMGSR: リアル世界のスーパーリゾリューションのためには、中間段階のガイダンスが1つ必要
- Authors: Zhiqiang Wu, Zhaomang Sun, Tong Zhou, Bingtao Fu, Ji Cong, Yitong Dong, Huaqi Zhang, Xuan Tang, Mingsong Chen, Xian Wei,
- Abstract要約: One Mid-timestep Guidance Real-ISR (OMGSR) はDDPM/FMベースの生成モデルに適用可能な普遍的なフレームワークである。
OMGSR-S (SD-Turbo) と OMGSR-F (FLUX.1-dev) の2つの変種を持つDDPM/FMベース生成モデルのOMGSRをインスタンス化する。
- 参考スコア(独自算出の注目度): 20.816585773567677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising Diffusion Probabilistic Models (DDPM) and Flow Matching (FM) generative models show promising potential for one-step Real-World Image Super-Resolution (Real-ISR). Recent one-step Real-ISR models typically inject a Low-Quality (LQ) image latent distribution at the initial timestep. However, a fundamental gap exists between the LQ image latent distribution and the Gaussian noisy latent distribution, limiting the effective utilization of generative priors. We observe that the noisy latent distribution at DDPM/FM mid-timesteps aligns more closely with the LQ image latent distribution. Based on this insight, we present One Mid-timestep Guidance Real-ISR (OMGSR), a universal framework applicable to DDPM/FM-based generative models. OMGSR injects the LQ image latent distribution at a pre-computed mid-timestep, incorporating the proposed Latent Distribution Refinement loss to alleviate the latent distribution gap. We also design the Overlap-Chunked LPIPS/GAN loss to eliminate checkerboard artifacts in image generation. Within this framework, we instantiate OMGSR for DDPM/FM-based generative models with two variants: OMGSR-S (SD-Turbo) and OMGSR-F (FLUX.1-dev). Experimental results demonstrate that OMGSR-S/F achieves balanced/excellent performance across quantitative and qualitative metrics at 512-resolution. Notably, OMGSR-F establishes overwhelming dominance in all reference metrics. We further train a 1k-resolution OMGSR-F to match the default resolution of FLUX.1-dev, which yields excellent results, especially in the details of the image generation. We also generate 2k-resolution images by the 1k-resolution OMGSR-F using our two-stage Tiled VAE & Diffusion.
- Abstract(参考訳): Denoising Diffusion Probabilistic Models (DDPM) and Flow Matching (FM) Generative model shows promising potential for one-step Real-World Image Super-Resolution (Real-ISR)。
最近の1ステップのReal-ISRモデルは、通常、初期段階でLQ(Low-Quality)画像の遅延分布を注入する。
しかし、LQ画像潜伏分布とガウス雑音潜伏分布の間には根本的なギャップがあり、生成前の有効利用を制限している。
DDPM/FMミッドタイムステップにおける雑音の潜時分布はLQ画像潜時分布とより密接に一致している。
この知見に基づいて,DDPM/FMに基づく生成モデルに適用可能な汎用フレームワークであるOne Mid-timestep Guidance Real-ISR(OMGSR)を提案する。
OMGSRは、遅延分布ギャップを軽減するために、提案した遅延分布リファインメント損失を組み込んで、予め計算された中間ステップでLQ画像の遅延分布を注入する。
また、画像生成におけるチェッカーボードのアーティファクトを排除するために、オーバーラップ型LPIPS/GAN損失を設計する。
本フレームワークでは,OMGSR-S (SD-Turbo) とOMGSR-F (FLUX.1-dev) の2つの変種を持つDDPM/FMベース生成モデルのOMGSRをインスタンス化する。
実験結果から,OMGSR-S/Fは512分解能で定量および定性の測定値間でバランスよく,かつ優れた性能を発揮することが示された。
特に、OMGSR-Fはすべての基準指標において圧倒的な優位性を確立している。
さらに、1k解像度のOMGSR-FをFLUX.1-devのデフォルト解像度に合わせるように訓練する。
また,2段式 Tiled VAE & Diffusion を用いて1k分解能 OMGSR-F を用いて2k分解能画像を生成する。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - LFSRDiff: Light Field Image Super-Resolution via Diffusion Models [18.20217829625834]
光電場(LF)画像超解像(SR)は、固有の不適切な性質のため難しい問題である。
主流のLF画像SR法は、一般的に決定論的アプローチを採用し、ピクセル単位の損失関数によって制御される1つの出力しか生成しない。
本稿では,最初の拡散型LF画像SRモデルであるLPSRDiffを紹介する。
論文 参考訳(メタデータ) (2023-11-27T07:31:12Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - DiffBFR: Bootstrapping Diffusion Model Towards Blind Face Restoration [8.253458555695767]
ブラインド顔修復(BFR)のための拡散確率モデル(DPM)を導入するためのDiffBFRを提案する。
DPMはトレーニングの崩壊を回避し、長い尾の分布を生成する。
低画質の画像から識別情報を復元し、実際の顔の分布に応じてテクスチャの詳細を強化する。
論文 参考訳(メタデータ) (2023-05-08T07:22:37Z) - Diffusion Probabilistic Model Made Slim [128.2227518929644]
軽量画像合成のためのスリム拡散確率モデル(DPM)のカスタマイズ設計を提案する。
一連の条件および非条件画像生成タスクにおける遅延拡散モデルと比較して,計算複雑性を8-18倍に削減する。
論文 参考訳(メタデータ) (2022-11-27T16:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。