論文の概要: Image Super-Resolution with Text Prompt Diffusion
- arxiv url: http://arxiv.org/abs/2311.14282v3
- Date: Tue, 08 Oct 2024 10:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:54.682057
- Title: Image Super-Resolution with Text Prompt Diffusion
- Title(参考訳): テキストプロンプト拡散による画像超解像
- Authors: Zheng Chen, Yulun Zhang, Jinjin Gu, Xin Yuan, Linghe Kong, Guihai Chen, Xiaokang Yang,
- Abstract要約: 画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、事前訓練された言語モデル(例えば、T5やCLIP)を使用して復元を強化する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示された。
- 参考スコア(独自算出の注目度): 118.023531454099
- License:
- Abstract: Image super-resolution (SR) methods typically model degradation to improve reconstruction accuracy in complex and unknown degradation scenarios. However, extracting degradation information from low-resolution images is challenging, which limits the model performance. To boost image SR performance, one feasible approach is to introduce additional priors. Inspired by advancements in multi-modal methods and text prompt image processing, we introduce text prompts to image SR to provide degradation priors. Specifically, we first design a text-image generation pipeline to integrate text into the SR dataset through the text degradation representation and degradation model. The text representation applies a discretization manner based on the binning method to describe the degradation abstractly. This method maintains the flexibility of the text and is user-friendly. Meanwhile, we propose the PromptSR to realize the text prompt SR. The PromptSR utilizes the pre-trained language model (e.g., T5 or CLIP) to enhance restoration. We train the PromptSR on the generated text-image dataset. Extensive experiments indicate that introducing text prompts into SR, yields excellent results on both synthetic and real-world images. Code is available at: https://github.com/zhengchen1999/PromptSR.
- Abstract(参考訳): 画像超解像法 (SR) は通常、複雑な、未知の劣化シナリオにおける再構成精度を改善するために分解をモデル化する。
しかし、低解像度画像から劣化情報を抽出することは困難であり、モデルの性能が制限される。
画像SRの性能を高めるために、ある実現可能なアプローチは、追加の事前を導入することである。
マルチモーダル手法とテキストプロンプト画像処理の進歩に触発されて、画像SRにテキストプロンプトを導入し、劣化の先行情報を提供する。
具体的には、テキスト劣化表現と劣化モデルを用いて、テキストをSRデータセットに統合するテキスト画像生成パイプラインを設計する。
テキスト表現は、その分解を抽象的に記述するために、ビンニング法に基づく離散化方式を適用する。
この方法はテキストの柔軟性を維持し、ユーザフレンドリである。
一方,テキストプロンプトSRを実現するために,PromptSRを提案する。
PromptSRは、事前訓練された言語モデル(例えば、T5、CLIP)を使用して復元を強化する。
生成されたテキストイメージデータセットに基づいてPromptSRをトレーニングする。
大規模な実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示されている。
コードはhttps://github.com/zhengchen 1999/PromptSR.comで入手できる。
関連論文リスト
- Improving Image Restoration through Removing Degradations in Textual
Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。
クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。
特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文 参考訳(メタデータ) (2023-12-28T19:18:17Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - Efficient Test-Time Adaptation for Super-Resolution with Second-Order
Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。
SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文 参考訳(メタデータ) (2023-10-29T13:58:57Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Text Prior Guided Scene Text Image Super-resolution [11.396781380648756]
Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。
我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。
STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:33Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。