論文の概要: One-step Generative Diffusion for Realistic Extreme Image Rescaling
- arxiv url: http://arxiv.org/abs/2408.09151v2
- Date: Tue, 19 Nov 2024 14:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:10.128781
- Title: One-step Generative Diffusion for Realistic Extreme Image Rescaling
- Title(参考訳): 現実的極端画像再スケーリングのための一段階生成拡散
- Authors: Ce Wang, Zhenyu Hu, Wanjie Sun, Zhenzhong Chen,
- Abstract要約: 極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
- 参考スコア(独自算出の注目度): 47.89362819768323
- License:
- Abstract: Image rescaling aims to learn the optimal low-resolution (LR) image that can be accurately reconstructed to its original high-resolution (HR) counterpart, providing an efficient image processing and storage method for ultra-high definition media. However, extreme downscaling factors pose significant challenges to the upscaling process due to its highly ill-posed nature, causing existing image rescaling methods to struggle in generating semantically correct structures and perceptual friendly textures. In this work, we propose a novel framework called One-Step Image Rescaling Diffusion (OSIRDiff) for extreme image rescaling, which performs rescaling operations in the latent space of a pre-trained autoencoder and effectively leverages powerful natural image priors learned by a pre-trained text-to-image diffusion model. Specifically, OSIRDiff adopts a pseudo-invertible module to establish the bidirectional mapping between the latent features of the HR image and the target-sized LR image. Then, the rescaled features are refined by a pre-trained diffusion model to generate more faithful and visually pleasing details. The entire model is end-to-end trained to enable the diffusion priors to guide the rescaling process. Considering the spatially non-uniform reconstruction quality of the rescaled latent features, we propose a novel time-step alignment strategy, which can adaptively determine the generative strength of the diffusion model based on the degree of latent reconstruction errors. Extensive experiments demonstrate the superiority of OSIRDiff over previous methods in both quantitative and qualitative evaluations.
- Abstract(参考訳): 画像再スケーリングは、元の高解像度(HR)に正確に再構成できる最適な低解像度(LR)画像を学習することを目的としており、超高精細メディアのための効率的な画像処理と記憶方法を提供する。
しかしながら、極端なダウンスケーリング要因は、非常に不適切な性質のため、アップスケーリングプロセスに重大な課題をもたらし、既存のイメージ再スケーリング手法は、意味論的に正しい構造と知覚的フレンドリなテクスチャを生成するのに苦労する。
本研究では,事前学習したオートエンコーダの潜伏空間における再スケーリング操作を行い,事前学習したテキスト・画像拡散モデルによって学習された強力な自然画像の先行処理を効果的に活用する,超高速画像再スケーリングのための新しいフレームワークである1段画像再スケーリング拡散(OSIRDiff)を提案する。
特に、OSIRDiffは、HR画像の潜在特徴とターゲットサイズのLR画像との双方向マッピングを確立するために擬似非可逆モジュールを採用する。
そして、事前訓練された拡散モデルにより、再スケールした特徴を洗練し、より忠実で視覚的な詳細を生成する。
モデル全体がエンドツーエンドでトレーニングされ、拡散前に再スケーリングプロセスのガイドを可能にする。
再スケールした遅延特徴の空間的非均一な再構成品質を考慮して,遅延再構成誤差の度合いに基づいて拡散モデルの生成強度を適応的に決定できる新しい時間段階アライメント戦略を提案する。
拡張実験は、定量評価と定性評価の両方において、以前の方法よりもOSIRDiffの方が優れていることを示した。
関連論文リスト
- Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - CasSR: Activating Image Power for Real-World Image Super-Resolution [24.152495730507823]
超解像のためのカスケード拡散法CasSRは、高精細でリアルな画像を生成するために設計された新しい方法である。
低解像度画像からの情報の抽出を最適化するカスケード制御可能な拡散モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T03:59:43Z) - Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。
潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。
これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文 参考訳(メタデータ) (2024-03-14T12:58:28Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。