論文の概要: DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2406.16477v1
- Date: Mon, 24 Jun 2024 09:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:33:48.933488
- Title: DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution
- Title(参考訳): DaLPSR: リアルタイム画像スーパーリゾリューションのためのレバレッジ劣化対応言語プロンプト
- Authors: Aiwen Jiang, Zhi Wei, Long Peng, Feiqiang Liu, Wenbo Li, Mingwen Wang,
- Abstract要約: 本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,特に実世界のケースにおいて,新しい最先端の知覚品質レベルを実現する。
- 参考スコア(独自算出の注目度): 19.33582308829547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image super-resolution pursuits reconstructing high-fidelity high-resolution counterpart for low-resolution image. In recent years, diffusion-based models have garnered significant attention due to their capabilities with rich prior knowledge. The success of diffusion models based on general text prompts has validated the effectiveness of textual control in the field of text2image. However, given the severe degradation commonly presented in low-resolution images, coupled with the randomness characteristics of diffusion models, current models struggle to adequately discern semantic and degradation information within severely degraded images. This often leads to obstacles such as semantic loss, visual artifacts, and visual hallucinations, which pose substantial challenges for practical use. To address these challenges, this paper proposes to leverage degradation-aligned language prompt for accurate, fine-grained, and high-fidelity image restoration. Complementary priors including semantic content descriptions and degradation prompts are explored. Specifically, on one hand, image-restoration prompt alignment decoder is proposed to automatically discern the degradation degree of LR images, thereby generating beneficial degradation priors for image restoration. On the other hand, much richly tailored descriptions from pretrained multimodal large language model elicit high-level semantic priors closely aligned with human perception, ensuring fidelity control for image restoration. Comprehensive comparisons with state-of-the-art methods have been done on several popular synthetic and real-world benchmark datasets. The quantitative and qualitative analysis have demonstrated that the proposed method achieves a new state-of-the-art perceptual quality level, especially in real-world cases based on reference-free metrics.
- Abstract(参考訳): 低解像度画像に対する高解像度高解像度画像再構成のための超高解像度画像探索
近年、拡散に基づくモデルは、豊富な事前知識を持つ能力のために大きな注目を集めている。
一般的なテキストプロンプトに基づく拡散モデルの成功により、テキスト2画像の分野におけるテキスト制御の有効性が検証された。
しかし, 拡散モデルのランダム性特性と相まって, 低解像度画像によく見られる重度劣化を考えると, 過度に劣化した画像内の意味や劣化情報を適切に識別することは困難である。
これはしばしば意味的損失、視覚的アーティファクト、視覚的幻覚といった障害につながり、実用的な使用に重大な課題を生じさせる。
これらの課題に対処するために, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
セマンティックコンテンツ記述や劣化プロンプトを含む補完的な事前事項を探索する。
具体的には、LR画像の劣化度を自動的に識別し、画像復元に有効な劣化先行時間を生成するために、画像復元プロンプトアライメントデコーダを提案する。
一方、事前訓練されたマルチモーダルな大言語モデルから、人間の知覚と密に整合した高レベルのセマンティックな先入観を導き、画像復元のための忠実度制御を確実にする。
いくつかの一般的な合成および実世界のベンチマークデータセットにおいて、最先端の手法との総合的な比較が行われた。
定量的および定性的な分析により,提案手法は,特に参照不要な指標に基づく実世界の場合において,新しい最先端の知覚品質レベルを達成することを示した。
関連論文リスト
- Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - DeeDSR: Towards Real-World Image Super-Resolution via Degradation-Aware Stable Diffusion [27.52552274944687]
低解像度画像のコンテンツや劣化を認識する拡散モデルの能力を高める新しい2段階の劣化認識フレームワークを提案する。
最初の段階では、教師なしのコントラスト学習を用いて画像劣化の表現を得る。
第2段階では、分解対応モジュールを単純化されたControlNetに統合し、様々な劣化への柔軟な適応を可能にします。
論文 参考訳(メタデータ) (2024-03-31T12:07:04Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - All-in-one Multi-degradation Image Restoration Network via Hierarchical
Degradation Representation [47.00239809958627]
我々は新しいオールインワン・マルチデグレーション画像復元ネットワーク(AMIRNet)を提案する。
AMIRNetは、クラスタリングによって木構造を段階的に構築することで、未知の劣化画像の劣化表現を学習する。
この木構造表現は、様々な歪みの一貫性と不一致を明示的に反映しており、画像復元の具体的な手がかりとなっている。
論文 参考訳(メタデータ) (2023-08-06T04:51:41Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z) - Real-world Person Re-Identification via Degradation Invariance Learning [111.86722193694462]
現実のシナリオにおける人物再識別(Re-ID)は通常、低解像度、弱い照明、ぼやけ、悪天候などの様々な劣化要因に悩まされる。
本稿では,現実世界のRe-IDを対象とした劣化不変学習フレームワークを提案する。
自己教師付き不整合表現学習戦略を導入することにより,個人性に関連する頑健な特徴を同時に抽出することができる。
論文 参考訳(メタデータ) (2020-04-10T07:58:50Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。