論文の概要: GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution
- arxiv url: http://arxiv.org/abs/2505.00687v1
- Date: Thu, 01 May 2025 17:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.391645
- Title: GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution
- Title(参考訳): GuideSR: 1ステップ高忠実拡散型超解法のためのガイダンス再考
- Authors: Aditya Arora, Zhengzhong Tu, Yufei Wang, Ruizheng Bai, Jian Wang, Sizhuo Ma,
- Abstract要約: GuideSRは、画像の忠実度を高めるために特別に設計された、単一ステップ拡散に基づく画像超解像(SR)モデルである。
提案手法は,PSNR, SSIM, LPIPS, DISTS, FIDなど,様々な基準ベースの指標において,既存の手法よりも一貫して優れている。
- 参考スコア(独自算出の注目度): 15.563111624900865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose GuideSR, a novel single-step diffusion-based image super-resolution (SR) model specifically designed to enhance image fidelity. Existing diffusion-based SR approaches typically adapt pre-trained generative models to image restoration tasks by adding extra conditioning on a VAE-downsampled representation of the degraded input, which often compromises structural fidelity. GuideSR addresses this limitation by introducing a dual-branch architecture comprising: (1) a Guidance Branch that preserves high-fidelity structures from the original-resolution degraded input, and (2) a Diffusion Branch, which a pre-trained latent diffusion model to enhance perceptual quality. Unlike conventional conditioning mechanisms, our Guidance Branch features a tailored structure for image restoration tasks, combining Full Resolution Blocks (FRBs) with channel attention and an Image Guidance Network (IGN) with guided attention. By embedding detailed structural information directly into the restoration pipeline, GuideSR produces sharper and more visually consistent results. Extensive experiments on benchmark datasets demonstrate that GuideSR achieves state-of-the-art performance while maintaining the low computational cost of single-step approaches, with up to 1.39dB PSNR gain on challenging real-world datasets. Our approach consistently outperforms existing methods across various reference-based metrics including PSNR, SSIM, LPIPS, DISTS and FID, further representing a practical advancement for real-world image restoration.
- Abstract(参考訳): 本稿では,画像の忠実度向上を目的とした新しい単一ステップ拡散型画像超解像(SR)モデルであるガイドSRを提案する。
既存の拡散ベースのSRアプローチは、しばしば構造的忠実さを損なうような劣化した入力のVAEサンプル表現に余分な条件を加えることで、画像復元タスクに事前訓練された生成モデルを適用する。
ガイドSRは,(1)原解像度劣化入力から高忠実度構造を保存する誘導分岐,(2)学習前の潜伏拡散モデルを用いて知覚品質を向上させる拡散分岐を含む二重分岐アーキテクチャを導入することで,この制限に対処する。
従来のコンディショニングとは違って,我々のガイダンスブランチでは,フルレゾリューションブロック (FRB) とチャネルアテンション,IGN (Image Guidance Network) とガイドアテンションを組み合わせた,画像復元作業に適した構造を特徴としている。
詳細な構造情報を復元パイプラインに直接埋め込むことで、よりシャープで視覚的に一貫性のある結果が得られる。
ベンチマークデータセットに関する大規模な実験により、 GuideSRはシングルステップアプローチの計算コストを低く保ちながら最先端のパフォーマンスを達成し、現実のデータセットに挑戦する上で最大1.39dBのPSNRを獲得している。
提案手法は,PSNR, SSIM, LPIPS, DISTS, FID など,様々な基準ベースで既存の手法よりも優れており,実際の画像復元の実践的な進歩を示している。
関連論文リスト
- RAP-SR: RestorAtion Prior Enhancement in Diffusion Models for Realistic Image Super-Resolution [36.137383171027615]
本稿では,Real-SRの事前学習拡散モデルにおける事前拡張手法であるRAP-SRを紹介する。
まず,QDAISP(Quality-Driven Aesthetic Image Selection Pipeline)を用いたHFAID(High-Fidelity Aesthetic Image dataset)を開発した。
第2に、復元優先分担(RPR)と再生指向分担最適化(ROPO)モジュールを含む再生優先分担フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T03:17:38Z) - TSD-SR: One-Step Diffusion with Target Score Distillation for Real-World Image Super-Resolution [25.994093587158808]
事前訓練されたテキスト-画像拡散モデルが、現実の画像超解像(Real-ISR)タスクにますます応用されている。
拡散モデルの反復的洗練された性質を考えると、既存のアプローチのほとんどは計算的に高価である。
実世界の超高解像度画像に特化して設計された新しい蒸留フレームワークであるTLD-SRを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:01:08Z) - Latent Diffusion, Implicit Amplification: Efficient Continuous-Scale Super-Resolution for Remote Sensing Images [7.920423405957888]
E$2$DiffSRは、最先端のSR手法と比較して、客観的な指標と視覚的品質を達成する。
拡散に基づくSR法の推論時間を非拡散法と同程度のレベルに短縮する。
論文 参考訳(メタデータ) (2024-10-30T09:14:13Z) - One Model for Two Tasks: Cooperatively Recognizing and Recovering Low-Resolution Scene Text Images by Iterative Mutual Guidance [32.88048472109016]
高分解能(HR)画像からのシーンテキスト認識(STR)は著しく成功したが、低分解能(LR)画像でのテキスト読取は依然として困難である。
近年,多くのシーンテキスト画像超解像(STISR)モデルがLR画像の超解像(SR)画像を生成するために提案され,SR画像上でSTRが実行されることにより認識性能が向上した。
本稿では,LRシーンのテキスト画像の同時認識と復元を効果的に行う,画像と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T15:05:25Z) - Low-Res Leads the Way: Improving Generalization for Super-Resolution by
Self-Supervised Learning [45.13580581290495]
本研究は,SRモデルの現実の画像への適応性を高めるために,新しい"Low-Res Leads the Way"(LWay)トレーニングフレームワークを導入する。
提案手法では,低分解能(LR)再構成ネットワークを用いて,LR画像から劣化埋め込みを抽出し,LR再構成のための超解出力とマージする。
私たちのトレーニング体制は普遍的に互換性があり、ネットワークアーキテクチャの変更は不要です。
論文 参考訳(メタデータ) (2024-03-05T02:29:18Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised
Real-world Single Image Super-Resolution [60.90817228730133]
単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした課題である。
近年のアプローチは、単純化されたダウンサンプリング演算子によって劣化したシミュレーションLR画像に基づいて訓練されている。
Invertible Scale-Conditional Function (ICF) を提案する。これは入力画像をスケールし、異なるスケール条件で元の入力を復元する。
論文 参考訳(メタデータ) (2023-07-24T12:42:45Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Learning Detail-Structure Alternative Optimization for Blind
Super-Resolution [69.11604249813304]
そこで我々は,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。
DSSRでは、細部構造変調モジュール(DSMM)が構築され、画像の詳細と構造の相互作用と協調を利用する。
本手法は既存の手法に対して最先端の手法を実現する。
論文 参考訳(メタデータ) (2022-12-03T14:44:17Z) - RRSR:Reciprocal Reference-based Image Super-Resolution with Progressive
Feature Alignment and Selection [66.08293086254851]
本稿では,RefSRネットワークの学習を強化するための相互学習フレームワークを提案する。
新たに提案したモジュールは,マルチスケールの特徴空間に参照入力画像をアライメントし,参照認識機能の選択を行う。
我々は,最近のRefSRモデルが相互学習パラダイムによって一貫した改善が可能であることを実証的に示す。
論文 参考訳(メタデータ) (2022-11-08T12:39:35Z) - Structure-Preserving Image Super-Resolution [94.16949589128296]
単一画像超解像(SISR)の構造
近年の研究では、フォトリアリスティック画像の復元によるSISRの開発が進められている。
しかし、回収された画像にはいまだ望ましくない構造歪みがある。
論文 参考訳(メタデータ) (2021-09-26T08:48:27Z) - Characteristic Regularisation for Super-Resolving Face Images [81.84939112201377]
既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。
従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータを用いてモデルをトレーニングすることでこの問題に対処する。
これにより、視覚的特徴を構成することと、画像の解像度を高めることの2つのタスクで、モデルをオーバーストレッチする。
従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
論文 参考訳(メタデータ) (2019-12-30T16:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。