論文の概要: SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2311.16518v1
- Date: Mon, 27 Nov 2023 18:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:48:13.466413
- Title: SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution
- Title(参考訳): SeeSR:Semantics-Aware Real-World Image Super-Resolutionを目指して
- Authors: Rongyuan Wu, Tao Yang, Lingchen Sun, Zhengqiang Zhang, Shuai Li, Lei
Zhang
- Abstract要約: 生成した実世界の画像の超解像のセマンティックな忠実さをよりよく保存するためのセマンティックス・アウェア・アプローチを提案する。
まず, 高精度なソフト・ハード・セマンティック・プロンプトを高い劣化下でも生成できる劣化対応プロンプト抽出器を訓練する。
実験により,本手法はよりリアルな画像の詳細を再現し,セマンティクスをよりよく保持できることが示された。
- 参考スコア(独自算出の注目度): 17.817936421632208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Owe to the powerful generative priors, the pre-trained text-to-image (T2I)
diffusion models have become increasingly popular in solving the real-world
image super-resolution problem. However, as a consequence of the heavy quality
degradation of input low-resolution (LR) images, the destruction of local
structures can lead to ambiguous image semantics. As a result, the content of
reproduced high-resolution image may have semantic errors, deteriorating the
super-resolution performance. To address this issue, we present a
semantics-aware approach to better preserve the semantic fidelity of generative
real-world image super-resolution. First, we train a degradation-aware prompt
extractor, which can generate accurate soft and hard semantic prompts even
under strong degradation. The hard semantic prompts refer to the image tags,
aiming to enhance the local perception ability of the T2I model, while the soft
semantic prompts compensate for the hard ones to provide additional
representation information. These semantic prompts can encourage the T2I model
to generate detailed and semantically accurate results. Furthermore, during the
inference process, we integrate the LR images into the initial sampling noise
to mitigate the diffusion model's tendency to generate excessive random
details. The experiments show that our method can reproduce more realistic
image details and hold better the semantics.
- Abstract(参考訳): 強力な生成前駆体であるT2I拡散モデルが, 現実の超解像問題を解く上で, ますます人気が高まっている。
しかし、入力低解像度(lr)画像の品質劣化の結果、局所構造の破壊は曖昧な画像意味論につながる可能性がある。
その結果、再生された高解像度画像の内容には意味的誤りがあり、超解像度性能が劣化する可能性がある。
この問題に対処するために,生成現実画像のセマンティックな忠実さをよりよく保存するためのセマンティックス・アウェア・アプローチを提案する。
まず, 高精度なソフト・ハード・セマンティック・プロンプトを高い劣化下でも生成できる劣化対応プロンプト抽出器を訓練する。
ハードセマンティックプロンプトはイメージタグを参照し、T2Iモデルの局所認識能力を向上することを目的としており、ソフトセマンティックプロンプトはハードセマンティックプロンプトを補償して追加の表現情報を提供する。
これらのセマンティックプロンプトは、T2Iモデルに詳細でセマンティックに正確な結果を生成するよう促すことができる。
さらに, 推定過程において, lr像を初期サンプリングノイズに統合し, 拡散モデルが過大なランダム詳細を生成する傾向を緩和する。
実験により,本手法はよりリアルな画像詳細を再現し,より優れた意味を保持できることを示した。
関連論文リスト
- ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution [28.945663118445037]
実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。
セマンティックとピクセルレベルの整合性を扱うためにConsisSRを導入する。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - DeeDSR: Towards Real-World Image Super-Resolution via Degradation-Aware Stable Diffusion [27.52552274944687]
低解像度画像のコンテンツや劣化を認識する拡散モデルの能力を高める新しい2段階の劣化認識フレームワークを提案する。
最初の段階では、教師なしのコントラスト学習を用いて画像劣化の表現を得る。
第2段階では、分解対応モジュールを単純化されたControlNetに統合し、様々な劣化への柔軟な適応を可能にします。
論文 参考訳(メタデータ) (2024-03-31T12:07:04Z) - XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution [14.935662351654601]
画像超解法では, 拡散法が注目されている。
ISRモデルでは、意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。
拡散モデルに対する高精度かつ包括的意味条件を取得するために,テキストクロスモーダル・プライマリ・フォー・スーパー・リゾリューション(XPSR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T04:52:22Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。