論文の概要: ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2410.13807v1
- Date: Thu, 17 Oct 2024 17:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:25.861997
- Title: ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution
- Title(参考訳): ConsisSR: 拡散に基づく画像超解法における一貫性の深化
- Authors: Junhao Gu, Peng-Tao Jiang, Hao Zhang, Mi Zhou, Jinwei Chen, Wenming Yang, Bo Li,
- Abstract要約: 実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。
セマンティックとピクセルレベルの整合性を扱うためにConsisSRを導入する。
- 参考スコア(独自算出の注目度): 28.945663118445037
- License:
- Abstract: Real-world image super-resolution (Real-ISR) aims at restoring high-quality (HQ) images from low-quality (LQ) inputs corrupted by unknown and complex degradations. In particular, pretrained text-to-image (T2I) diffusion models provide strong generative priors to reconstruct credible and intricate details. However, T2I generation focuses on semantic consistency while Real-ISR emphasizes pixel-level reconstruction, which hinders existing methods from fully exploiting diffusion priors. To address this challenge, we introduce ConsisSR to handle both semantic and pixel-level consistency. Specifically, compared to coarse-grained text prompts, we exploit the more powerful CLIP image embedding and effectively leverage both modalities through our Hybrid Prompt Adapter (HPA) for semantic guidance. Secondly, we introduce Time-aware Latent Augmentation (TALA) to mitigate the inherent gap between T2I generation and Real-ISR consistency requirements. By randomly mixing LQ and HQ latent inputs, our model not only handle timestep-specific diffusion noise but also refine the accumulated latent representations. Last but not least, our GAN-Embedding strategy employs the pretrained Real-ESRGAN model to refine the diffusion start point. This accelerates the inference process to 10 steps while preserving sampling quality, in a training-free manner.Our method demonstrates state-of-the-art performance among both full-scale and accelerated models. The code will be made publicly available.
- Abstract(参考訳): 実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。
特に、事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルは、信頼性と複雑な詳細を再構築するための強力な生成前駆体を提供する。
しかし、T2I生成はセマンティック一貫性に重点を置いており、Real-ISRはピクセルレベルの再構成を強調しており、既存の手法が拡散先行をフル活用することを妨げている。
この課題に対処するために、セマンティックとピクセルレベルの一貫性の両方を扱うためのConsisSRを紹介します。
具体的には、粗粒のテキストプロンプトと比較して、より強力なCLIP画像埋め込みを利用し、セマンティックガイダンスのためにHybrid Prompt Adapter (HPA)を通して両方のモダリティを効果的に活用する。
第2に、T2I生成とReal-ISR整合性要件の相違を緩和するために、T2I生成とReal-ISR整合性要件の相違を緩和するために、T2A(Time-Aware Latent Augmentation)を導入する。
LQとHQ潜時入力をランダムに混合することにより、我々のモデルは時間ステップ固有の拡散ノイズだけでなく、蓄積した潜時表現も洗練する。
最後に、GAN-Embedding戦略では、事前訓練されたReal-ESRGANモデルを用いて拡散開始点を改良する。
これにより, サンプリング品質をトレーニング不要に保ちつつ, 10ステップまで推算処理を高速化し, 実規模モデルと加速モデルの両方の最先端性能を実証する。
コードは公開されます。
関連論文リスト
- One-Step Effective Diffusion Network for Real-World Image Super-Resolution [11.326598938246558]
本稿では,Real-ISR問題に対する1ステップの効果的な拡散ネットワーク,すなわちOSEDiffを提案する。
我々は,KL分散正則化を行うために,潜時空間における変分点蒸留を適用した。
実験の結果,OSEDiffは,客観的指標と主観的評価の両方の観点から,同等あるいはさらに優れたリアルISR結果が得られることが示された。
論文 参考訳(メタデータ) (2024-06-12T13:10:31Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
モデル構造では、二項化に最適化されたUNetアーキテクチャを設計する。
我々は,一貫した次元を維持するために,一貫した画素ダウンサンプル (CP-Down) と一貫したピクセルアップサンプル (CP-Up) を提案する。
BI-DiffSRが既存のバイナライゼーション法より優れていることを示す総合実験を行った。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution [14.935662351654601]
画像超解法では, 拡散法が注目されている。
ISRモデルでは、意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。
拡散モデルに対する高精度かつ包括的意味条件を取得するために,テキストクロスモーダル・プライマリ・フォー・スーパー・リゾリューション(XPSR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T04:52:22Z) - Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution [18.71638301931374]
画像超解像 (SR) 結果の視覚的品質を高めるために, 予め訓練した潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。
本稿では、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANを細かな細部改善に使用することを提案する。
トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
論文 参考訳(メタデータ) (2023-12-30T10:22:59Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution [16.815468458589635]
生成した実世界の画像の超解像のセマンティックな忠実さをよりよく保存するためのセマンティックス・アウェア・アプローチを提案する。
まず, 高精度なソフト・ハード・セマンティック・プロンプトを高い劣化下でも生成できる劣化対応プロンプト抽出器を訓練する。
実験により,本手法はよりリアルな画像の詳細を再現し,セマンティクスをよりよく保持できることが示された。
論文 参考訳(メタデータ) (2023-11-27T18:11:19Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z) - Characteristic Regularisation for Super-Resolving Face Images [81.84939112201377]
既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。
従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータを用いてモデルをトレーニングすることでこの問題に対処する。
これにより、視覚的特徴を構成することと、画像の解像度を高めることの2つのタスクで、モデルをオーバーストレッチする。
従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
論文 参考訳(メタデータ) (2019-12-30T16:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。