Fugu-MT 論文翻訳(概要): DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution

論文の概要: DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution

arxiv url: http://arxiv.org/abs/2406.16477v1
Date: Mon, 24 Jun 2024 09:30:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 15:33:48.933488
Title: DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution
Title（参考訳）: DaLPSR: リアルタイム画像スーパーリゾリューションのためのレバレッジ劣化対応言語プロンプト
Authors: Aiwen Jiang, Zhi Wei, Long Peng, Feiqiang Liu, Wenbo Li, Mingwen Wang,
Abstract要約: 本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。提案手法は,特に実世界のケースにおいて,新しい最先端の知覚品質レベルを実現する。
参考スコア（独自算出の注目度）: 19.33582308829547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image super-resolution pursuits reconstructing high-fidelity high-resolution counterpart for low-resolution image. In recent years, diffusion-based models have garnered significant attention due to their capabilities with rich prior knowledge. The success of diffusion models based on general text prompts has validated the effectiveness of textual control in the field of text2image. However, given the severe degradation commonly presented in low-resolution images, coupled with the randomness characteristics of diffusion models, current models struggle to adequately discern semantic and degradation information within severely degraded images. This often leads to obstacles such as semantic loss, visual artifacts, and visual hallucinations, which pose substantial challenges for practical use. To address these challenges, this paper proposes to leverage degradation-aligned language prompt for accurate, fine-grained, and high-fidelity image restoration. Complementary priors including semantic content descriptions and degradation prompts are explored. Specifically, on one hand, image-restoration prompt alignment decoder is proposed to automatically discern the degradation degree of LR images, thereby generating beneficial degradation priors for image restoration. On the other hand, much richly tailored descriptions from pretrained multimodal large language model elicit high-level semantic priors closely aligned with human perception, ensuring fidelity control for image restoration. Comprehensive comparisons with state-of-the-art methods have been done on several popular synthetic and real-world benchmark datasets. The quantitative and qualitative analysis have demonstrated that the proposed method achieves a new state-of-the-art perceptual quality level, especially in real-world cases based on reference-free metrics.
Abstract（参考訳）: 低解像度画像に対する高解像度高解像度画像再構成のための超高解像度画像探索近年、拡散に基づくモデルは、豊富な事前知識を持つ能力のために大きな注目を集めている。一般的なテキストプロンプトに基づく拡散モデルの成功により、テキスト2画像の分野におけるテキスト制御の有効性が検証された。しかし, 拡散モデルのランダム性特性と相まって, 低解像度画像によく見られる重度劣化を考えると, 過度に劣化した画像内の意味や劣化情報を適切に識別することは困難である。これはしばしば意味的損失、視覚的アーティファクト、視覚的幻覚といった障害につながり、実用的な使用に重大な課題を生じさせる。これらの課題に対処するために, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。セマンティックコンテンツ記述や劣化プロンプトを含む補完的な事前事項を探索する。具体的には、LR画像の劣化度を自動的に識別し、画像復元に有効な劣化先行時間を生成するために、画像復元プロンプトアライメントデコーダを提案する。一方、事前訓練されたマルチモーダルな大言語モデルから、人間の知覚と密に整合した高レベルのセマンティックな先入観を導き、画像復元のための忠実度制御を確実にする。いくつかの一般的な合成および実世界のベンチマークデータセットにおいて、最先端の手法との総合的な比較が行われた。定量的および定性的な分析により,提案手法は,特に参照不要な指標に基づく実世界の場合において,新しい最先端の知覚品質レベルを達成することを示した。

関連論文リスト

From Enhancement to Understanding: Build a Generalized Bridge for Low-light Vision via Semantically Consistent Unsupervised Fine-tuning [65.94580484237737]
低照度向上は下流タスクの画質を向上させるが、既存の手法は物理的または幾何学的先行に頼っている。我々は、低照度強化と低照度理解の間に一般化された橋を架け、この橋をGEFU(Generalized Enhancement For Understanding)と呼ぶ。低照度劣化の多様な原因を解決するために,事前学習した生成拡散モデルを用いて画像の最適化を行い,ゼロショット一般化性能を実現する。
論文参考訳（メタデータ） (2025-07-11T07:51:26Z)
Visual-Instructed Degradation Diffusion for All-in-One Image Restoration [29.910376294021052]
視覚指導誘導劣化拡散を利用したオールインワン画像復元フレームワークである textbfDefusion を提案する。 Defusionは複雑な画像復元タスクや実世界の劣化など、さまざまな画像復元タスクにおいて、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-20T12:50:42Z)
Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。 PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文参考訳（メタデータ） (2025-03-14T04:33:59Z)
Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文参考訳（メタデータ） (2024-07-04T05:01:10Z)
SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文参考訳（メタデータ） (2024-07-04T04:55:14Z)
XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution [14.935662351654601]
画像超解法では, 拡散法が注目されている。 ISRモデルでは、意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。拡散モデルに対する高精度かつ包括的意味条件を取得するために,テキストクロスモーダル・プライマリ・フォー・スーパー・リゾリューション(XPSR)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-08T04:52:22Z)
Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文参考訳（メタデータ） (2024-02-28T06:07:07Z)
ENTED: Enhanced Neural Texture Extraction and Distribution for Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文参考訳（メタデータ） (2024-01-13T04:54:59Z)
CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文参考訳（メタデータ） (2023-11-27T16:33:29Z)
Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文参考訳（メタデータ） (2023-11-22T11:10:45Z)
All-in-one Multi-degradation Image Restoration Network via Hierarchical Degradation Representation [47.00239809958627]
我々は新しいオールインワン・マルチデグレーション画像復元ネットワーク(AMIRNet)を提案する。 AMIRNetは、クラスタリングによって木構造を段階的に構築することで、未知の劣化画像の劣化表現を学習する。この木構造表現は、様々な歪みの一貫性と不一致を明示的に反映しており、画像復元の具体的な手がかりとなっている。
論文参考訳（メタデータ） (2023-08-06T04:51:41Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Single Image Internal Distribution Measurement Using Non-Local Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。 textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。 7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文参考訳（メタデータ） (2022-04-02T18:43:55Z)
Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文参考訳（メタデータ） (2020-05-12T09:55:53Z)
Real-world Person Re-Identification via Degradation Invariance Learning [111.86722193694462]
現実のシナリオにおける人物再識別(Re-ID)は通常、低解像度、弱い照明、ぼやけ、悪天候などの様々な劣化要因に悩まされる。本稿では,現実世界のRe-IDを対象とした劣化不変学習フレームワークを提案する。自己教師付き不整合表現学習戦略を導入することにより,個人性に関連する頑健な特徴を同時に抽出することができる。
論文参考訳（メタデータ） (2020-04-10T07:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。