論文の概要: Hero-SR: One-Step Diffusion for Super-Resolution with Human Perception Priors
- arxiv url: http://arxiv.org/abs/2412.07152v1
- Date: Tue, 10 Dec 2024 03:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:18.224593
- Title: Hero-SR: One-Step Diffusion for Super-Resolution with Human Perception Priors
- Title(参考訳): Hero-SR:人間の知覚に先行した超解像の1ステップ拡散
- Authors: Jiangang Wang, Qingnan Fan, Qi Zhang, Haigen Liu, Yuhang Yu, Jinwei Chen, Wenqi Ren,
- Abstract要約: Hero-SRは1ステップの拡散に基づくSRフレームワークで、人間の知覚に先立って明示的に設計されている。
Hero-SRは、人間の知覚基準を柔軟に満たすための最適な拡散ステップを適応的に選択するDynamic Time-Step Module (DTSM)と、CLIPを通じて画像ドメインとテキストドメインからのガイダンスを統合するOpen-World Multi-modality Supervision (OWMS)の2つの新しいモジュールで構成されている。
- 参考スコア(独自算出の注目度): 35.23827405798634
- License:
- Abstract: Owing to the robust priors of diffusion models, recent approaches have shown promise in addressing real-world super-resolution (Real-SR). However, achieving semantic consistency and perceptual naturalness to meet human perception demands remains difficult, especially under conditions of heavy degradation and varied input complexities. To tackle this, we propose Hero-SR, a one-step diffusion-based SR framework explicitly designed with human perception priors. Hero-SR consists of two novel modules: the Dynamic Time-Step Module (DTSM), which adaptively selects optimal diffusion steps for flexibly meeting human perceptual standards, and the Open-World Multi-modality Supervision (OWMS), which integrates guidance from both image and text domains through CLIP to improve semantic consistency and perceptual naturalness. Through these modules, Hero-SR generates high-resolution images that not only preserve intricate details but also reflect human perceptual preferences. Extensive experiments validate that Hero-SR achieves state-of-the-art performance in Real-SR. The code will be publicly available upon paper acceptance.
- Abstract(参考訳): 拡散モデルのロバストな先行性のため、近年のアプローチは現実世界の超解像(Real-SR)に対処する上で有望であることが示されている。
しかし、人間の知覚要求を満たすために意味的一貫性と知覚的自然性を達成することは、特に過度な劣化と様々な入力複雑さの条件下では、依然として困難である。
そこで我々はHero-SRを提案する。Hero-SRは1ステップの拡散に基づくSRフレームワークで、人間の知覚に先立って設計されている。
Hero-SRは、人間の知覚基準を柔軟に満たすための最適な拡散ステップを適応的に選択するDynamic Time-Step Module (DTSM)と、CLIPを通じて画像ドメインとテキストドメインからのガイダンスを統合するOpen-World Multi-modality Supervision (OWMS)の2つの新しいモジュールで構成されている。
これらのモジュールを通して、Hero-SRは複雑な詳細を保存するだけでなく、人間の知覚的嗜好を反映する高解像度画像を生成する。
大規模な実験により、Hero-SRがReal-SRの最先端性能を達成することが実証された。
コードは、論文の受理時に公開される。
関連論文リスト
- ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution [28.945663118445037]
実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。
セマンティックとピクセルレベルの整合性を扱うためにConsisSRを導入する。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - Universal Robustness via Median Randomized Smoothing for Real-World Super-Resolution [7.638042073679073]
本稿では,ディープラーニング超解法のロバスト性向上のための様々な手法の普遍性について検討する。
正中性ランダム化平滑化(MRS)は, 対向学習法に比べ, 頑健性においてより一般的であることを示す。
また,提案手法により,SRモデルにより標準的な汚職をより効果的に扱えることを示す。
論文 参考訳(メタデータ) (2024-05-23T18:00:01Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution [14.935662351654601]
画像超解法では, 拡散法が注目されている。
ISRモデルでは、意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。
拡散モデルに対する高精度かつ包括的意味条件を取得するために,テキストクロスモーダル・プライマリ・フォー・スーパー・リゾリューション(XPSR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T04:52:22Z) - ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised
Real-world Single Image Super-Resolution [60.90817228730133]
単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした課題である。
近年のアプローチは、単純化されたダウンサンプリング演算子によって劣化したシミュレーションLR画像に基づいて訓練されている。
Invertible Scale-Conditional Function (ICF) を提案する。これは入力画像をスケールし、異なるスケール条件で元の入力を復元する。
論文 参考訳(メタデータ) (2023-07-24T12:42:45Z) - SRDiff: Single Image Super-Resolution with Diffusion Probabilistic
Models [19.17571465274627]
単一の画像スーパーリゾリューション(SISR)は、与えられた低リゾリューション(LR)画像から高解像度(HR)画像を再構成することを目的とする。
新規な単像超解像拡散確率モデル(SRDiff)を提案する。
SRDiffはデータ可能性の変動境界の変種に最適化されており、多様で現実的なSR予測を提供することができる。
論文 参考訳(メタデータ) (2021-04-30T12:31:25Z) - HiFaceGAN: Face Renovation via Collaborative Suppression and
Replenishment [63.333407973913374]
フェース・リノベーション(FR)は意味誘導型生成問題である。
HiFaceGANは、複数のネストされたCSRユニットを含む多段階フレームワークである。
合成画像と実顔画像の両方の実験により,HiFaceGANの優れた性能が確認された。
論文 参考訳(メタデータ) (2020-05-11T11:33:17Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z) - HighRes-net: Recursive Fusion for Multi-Frame Super-Resolution of
Satellite Imagery [55.253395881190436]
MFSR(Multi-frame Super-Resolution)は、問題に対するより根底的なアプローチを提供する。
これは、地球上の人間の影響を衛星で観測する上で重要である。
我々は,MFSRにおける最初のディープラーニングアプローチであるHighRes-netを紹介し,そのサブタスクをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2020-02-15T22:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。