論文の概要: Image Super-Resolution with Text Prompt Diffusion
- arxiv url: http://arxiv.org/abs/2311.14282v1
- Date: Fri, 24 Nov 2023 05:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:04:09.558861
- Title: Image Super-Resolution with Text Prompt Diffusion
- Title(参考訳): テキストプロンプト拡散による画像超解像
- Authors: Zheng Chen, Yulun Zhang, Jinjin Gu, Xin Yuan, Linghe Kong, Guihai
Chen, Xiaokang Yang
- Abstract要約: 画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
実験により、テキストプロンプトを画像SRに導入すると、合成画像と実画像の両方で優れた結果が得られることが示された。
- 参考スコア(独自算出の注目度): 123.94190649199449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image super-resolution (SR) methods typically model degradation to improve
reconstruction accuracy in complex and unknown degradation scenarios. However,
extracting degradation information from low-resolution images is challenging,
which limits the model performance. To boost image SR performance, one feasible
approach is to introduce additional priors. Inspired by advancements in
multi-modal methods and text prompt image processing, we introduce text prompts
to image SR to provide degradation priors. Specifically, we first design a
text-image generation pipeline to integrate text into SR dataset through the
text degradation representation and degradation model. The text representation
applies a discretization manner based on the binning method to describe the
degradation abstractly. This representation method can also maintain the
flexibility of language. Meanwhile, we propose the PromptSR to realize the text
prompt SR. The PromptSR employs the diffusion model and the pre-trained
language model (e.g., T5 and CLIP). We train the model on the generated
text-image dataset. Extensive experiments indicate that introducing text
prompts into image SR, yields excellent results on both synthetic and
real-world images. Code: https://github.com/zhengchen1999/PromptSR.
- Abstract(参考訳): 画像スーパーレゾリューション(sr)法は通常、複雑で未知の劣化シナリオにおける再構成精度を向上させるために劣化をモデル化する。
しかし、低解像度画像から劣化情報を抽出することは困難であり、モデルの性能が制限される。
イメージsrのパフォーマンスを高めるためには、追加の事前設定を導入する方法がある。
マルチモーダル手法とテキストプロンプト画像処理の進歩に触発されて、画像SRにテキストプロンプトを導入し、劣化の先行情報を提供する。
具体的には,テキスト分解表現と分解モデルを通じてsrデータセットにテキストを統合するテキスト画像生成パイプラインをまず設計する。
テキスト表現は、その分解を抽象的に記述するビンニング法に基づく離散化方式を適用する。
この表現方法は言語の柔軟性も維持できる。
一方,テキストプロンプトSRを実現するために,PromptSRを提案する。
プロンプトsrは拡散モデルと事前学習された言語モデル(例えばt5とクリップ)を用いる。
生成されたテキストイメージデータセットでモデルをトレーニングします。
画像SRにテキストプロンプトを導入すると、合成画像と実世界の画像の両方に優れた結果が得られることを示す。
コード:https://github.com/zhengchen 1999/PromptSR。
関連論文リスト
- Improving Image Restoration through Removing Degradations in Textual
Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。
クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。
特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文 参考訳(メタデータ) (2023-12-28T19:18:17Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - Efficient Test-Time Adaptation for Super-Resolution with Second-Order
Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。
SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文 参考訳(メタデータ) (2023-10-29T13:58:57Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Text Prior Guided Scene Text Image Super-resolution [11.396781380648756]
Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。
我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。
STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:33Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。