Fugu-MT 論文翻訳(概要): Image Super-Resolution with Text Prompt Diffusion

論文の概要: Image Super-Resolution with Text Prompt Diffusion

arxiv url: http://arxiv.org/abs/2311.14282v1
Date: Fri, 24 Nov 2023 05:11:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 16:04:09.558861
Title: Image Super-Resolution with Text Prompt Diffusion
Title（参考訳）: テキストプロンプト拡散による画像超解像
Authors: Zheng Chen, Yulun Zhang, Jinjin Gu, Xin Yuan, Linghe Kong, Guihai Chen, Xiaokang Yang
Abstract要約: 画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。実験により、テキストプロンプトを画像SRに導入すると、合成画像と実画像の両方で優れた結果が得られることが示された。
参考スコア（独自算出の注目度）: 123.94190649199449
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image super-resolution (SR) methods typically model degradation to improve reconstruction accuracy in complex and unknown degradation scenarios. However, extracting degradation information from low-resolution images is challenging, which limits the model performance. To boost image SR performance, one feasible approach is to introduce additional priors. Inspired by advancements in multi-modal methods and text prompt image processing, we introduce text prompts to image SR to provide degradation priors. Specifically, we first design a text-image generation pipeline to integrate text into SR dataset through the text degradation representation and degradation model. The text representation applies a discretization manner based on the binning method to describe the degradation abstractly. This representation method can also maintain the flexibility of language. Meanwhile, we propose the PromptSR to realize the text prompt SR. The PromptSR employs the diffusion model and the pre-trained language model (e.g., T5 and CLIP). We train the model on the generated text-image dataset. Extensive experiments indicate that introducing text prompts into image SR, yields excellent results on both synthetic and real-world images. Code: https://github.com/zhengchen1999/PromptSR.
Abstract（参考訳）: 画像スーパーレゾリューション(sr)法は通常、複雑で未知の劣化シナリオにおける再構成精度を向上させるために劣化をモデル化する。しかし、低解像度画像から劣化情報を抽出することは困難であり、モデルの性能が制限される。イメージsrのパフォーマンスを高めるためには、追加の事前設定を導入する方法がある。マルチモーダル手法とテキストプロンプト画像処理の進歩に触発されて、画像SRにテキストプロンプトを導入し、劣化の先行情報を提供する。具体的には,テキスト分解表現と分解モデルを通じてsrデータセットにテキストを統合するテキスト画像生成パイプラインをまず設計する。テキスト表現は、その分解を抽象的に記述するビンニング法に基づく離散化方式を適用する。この表現方法は言語の柔軟性も維持できる。一方,テキストプロンプトSRを実現するために,PromptSRを提案する。プロンプトsrは拡散モデルと事前学習された言語モデル(例えばt5とクリップ)を用いる。生成されたテキストイメージデータセットでモデルをトレーニングします。画像SRにテキストプロンプトを導入すると、合成画像と実世界の画像の両方に優れた結果が得られることを示す。コード:https://github.com/zhengchen 1999/PromptSR。

関連論文リスト

TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance [24.242452422416438]
我々は,多言語テキスト画像超解法に特化して設計された多モーダル拡散モデルであるTextSRを紹介する。テキストの先行画像と低解像度のテキスト画像を統合することにより,本モデルが効果的に超解像過程を導出する。 TextZoom と TextVQA のデータセット上でのモデルの優れたパフォーマンスは、STISR の新しいベンチマークを設定します。
論文参考訳（メタデータ） (2025-05-29T05:40:35Z)
CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution [21.843398350371867]
畳み込みニューラルネットワーク(CNN)は、画像超解像(SR)を大幅に進歩させたほとんどのCNNベースのメソッドはピクセルベースの変換のみに依存しており、アーティファクトやぼやけにつながっている。テキストのセマンティックスと視覚的特徴を統合するマルチモーダルなセマンティックエンハンスメントフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-16T09:50:09Z)
Improving Image Restoration through Removing Degradations in Textual Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文参考訳（メタデータ） (2023-12-28T19:18:17Z)
CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文参考訳（メタデータ） (2023-11-27T16:33:29Z)
Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文参考訳（メタデータ） (2023-11-22T11:10:45Z)
Scene Text Image Super-resolution based on Text-conditional Diffusion Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。 LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-16T10:32:18Z)
Efficient Test-Time Adaptation for Super-Resolution with Second-Order Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。 SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文参考訳（メタデータ） (2023-10-29T13:58:57Z)
Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文参考訳（メタデータ） (2023-10-09T07:31:44Z)
Towards Robust Scene Text Image Super-resolution via Explicit Location Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文参考訳（メタデータ） (2023-07-19T05:08:47Z)
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文参考訳（メタデータ） (2023-05-09T05:48:38Z)
Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文参考訳（メタデータ） (2022-07-14T01:46:38Z)
Text Prior Guided Scene Text Image Super-resolution [11.396781380648756]
Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。 STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
論文参考訳（メタデータ） (2021-06-29T12:52:33Z)
Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文参考訳（メタデータ） (2020-05-07T09:18:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。