論文の概要: One-step Generative Diffusion for Realistic Extreme Image Rescaling
- arxiv url: http://arxiv.org/abs/2408.09151v2
- Date: Tue, 19 Nov 2024 14:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:10.128781
- Title: One-step Generative Diffusion for Realistic Extreme Image Rescaling
- Title(参考訳): 現実的極端画像再スケーリングのための一段階生成拡散
- Authors: Ce Wang, Zhenyu Hu, Wanjie Sun, Zhenzhong Chen,
- Abstract要約: 極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
- 参考スコア(独自算出の注目度): 47.89362819768323
- License:
- Abstract: Image rescaling aims to learn the optimal low-resolution (LR) image that can be accurately reconstructed to its original high-resolution (HR) counterpart, providing an efficient image processing and storage method for ultra-high definition media. However, extreme downscaling factors pose significant challenges to the upscaling process due to its highly ill-posed nature, causing existing image rescaling methods to struggle in generating semantically correct structures and perceptual friendly textures. In this work, we propose a novel framework called One-Step Image Rescaling Diffusion (OSIRDiff) for extreme image rescaling, which performs rescaling operations in the latent space of a pre-trained autoencoder and effectively leverages powerful natural image priors learned by a pre-trained text-to-image diffusion model. Specifically, OSIRDiff adopts a pseudo-invertible module to establish the bidirectional mapping between the latent features of the HR image and the target-sized LR image. Then, the rescaled features are refined by a pre-trained diffusion model to generate more faithful and visually pleasing details. The entire model is end-to-end trained to enable the diffusion priors to guide the rescaling process. Considering the spatially non-uniform reconstruction quality of the rescaled latent features, we propose a novel time-step alignment strategy, which can adaptively determine the generative strength of the diffusion model based on the degree of latent reconstruction errors. Extensive experiments demonstrate the superiority of OSIRDiff over previous methods in both quantitative and qualitative evaluations.
- Abstract(参考訳): 画像再スケーリングは、元の高解像度(HR)に正確に再構成できる最適な低解像度(LR)画像を学習することを目的としており、超高精細メディアのための効率的な画像処理と記憶方法を提供する。
しかしながら、極端なダウンスケーリング要因は、非常に不適切な性質のため、アップスケーリングプロセスに重大な課題をもたらし、既存のイメージ再スケーリング手法は、意味論的に正しい構造と知覚的フレンドリなテクスチャを生成するのに苦労する。
本研究では,事前学習したオートエンコーダの潜伏空間における再スケーリング操作を行い,事前学習したテキスト・画像拡散モデルによって学習された強力な自然画像の先行処理を効果的に活用する,超高速画像再スケーリングのための新しいフレームワークである1段画像再スケーリング拡散(OSIRDiff)を提案する。
特に、OSIRDiffは、HR画像の潜在特徴とターゲットサイズのLR画像との双方向マッピングを確立するために擬似非可逆モジュールを採用する。
そして、事前訓練された拡散モデルにより、再スケールした特徴を洗練し、より忠実で視覚的な詳細を生成する。
モデル全体がエンドツーエンドでトレーニングされ、拡散前に再スケーリングプロセスのガイドを可能にする。
再スケールした遅延特徴の空間的非均一な再構成品質を考慮して,遅延再構成誤差の度合いに基づいて拡散モデルの生成強度を適応的に決定できる新しい時間段階アライメント戦略を提案する。
拡張実験は、定量評価と定性評価の両方において、以前の方法よりもOSIRDiffの方が優れていることを示した。
関連論文リスト
- Super-Resolution through StyleGAN Regularized Latent Search: A
Realism-Fidelity Trade-off [3.212648064850423]
本稿では,高分解能(HR)画像を低分解能(LR)画像から構築する問題に対処する。
最近の教師なしアプローチでは、HR画像上で事前訓練されたStyleGANの潜伏空間を探索し、入力LR画像に最もダウンスケールした画像を求める。
我々は、潜在空間における探索を制約する新しい正規化器を導入し、逆符号が元の画像多様体に存在することを保証する。
論文 参考訳(メタデータ) (2023-11-28T16:27:24Z) - Self-Asymmetric Invertible Network for Compression-Aware Image Rescaling [6.861753163565238]
現実世界のアプリケーションでは、ほとんどの画像は伝送のために圧縮される。
圧縮対応画像再スケーリングのための自己非対称可逆ネットワーク(SAIN)を提案する。
論文 参考訳(メタデータ) (2023-03-04T08:33:46Z) - Enhancing Image Rescaling using Dual Latent Variables in Invertible
Neural Network [42.18106162158025]
画像ダウンスケーリングプロセスのバリエーションをモデル化するために、新しいダウンスケーリング潜在変数が導入された。
これにより、ダウンスケールのLR画像の画質を犠牲にすることなく、画像のアップスケーリング精度を一貫して向上させることができる。
また、画像隠蔽のような画像復元アプリケーションのための他の INN ベースのモデルの拡張にも有効であることが示されている。
論文 参考訳(メタデータ) (2022-07-24T23:12:51Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z) - Hierarchical Conditional Flow: A Unified Framework for Image
Super-Resolution and Image Rescaling [139.25215100378284]
画像SRと画像再スケーリングのための統合フレームワークとして階層的条件フロー(HCFlow)を提案する。
HCFlowは、LR画像と残りの高周波成分の分布を同時にモデル化することにより、HRとLR画像ペア間のマッピングを学習する。
さらに性能を高めるために、知覚的損失やGAN損失などの他の損失と、トレーニングで一般的に使用される負の対数類似損失とを組み合わせる。
論文 参考訳(メタデータ) (2021-08-11T16:11:01Z) - Exploiting Deep Generative Prior for Versatile Image Restoration and
Manipulation [181.08127307338654]
本研究は, 大規模自然画像に基づいて学習したGAN(Generative Adversarial Network)により, 得られた画像の有効利用方法を示す。
深層生成前駆体(DGP)は、色、パッチ、解像度、様々な劣化した画像の欠落したセマンティクスを復元するための説得力のある結果を提供する。
論文 参考訳(メタデータ) (2020-03-30T17:45:07Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。