論文の概要: Rethinking Super-Resolution as Text-Guided Details Generation
- arxiv url: http://arxiv.org/abs/2207.06604v1
- Date: Thu, 14 Jul 2022 01:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 05:43:53.023609
- Title: Rethinking Super-Resolution as Text-Guided Details Generation
- Title(参考訳): 超解像をテキストガイドディテール生成として再考する
- Authors: Chenxi Ma, Bo Yan, Qing Lin, Weimin Tan, Siming Chen
- Abstract要約: テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
- 参考スコア(独自算出の注目度): 21.695227836312835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have greatly promoted the performance of single image
super-resolution (SISR). Conventional methods still resort to restoring the
single high-resolution (HR) solution only based on the input of image modality.
However, the image-level information is insufficient to predict adequate
details and photo-realistic visual quality facing large upscaling factors (x8,
x16). In this paper, we propose a new perspective that regards the SISR as a
semantic image detail enhancement problem to generate semantically reasonable
HR image that are faithful to the ground truth. To enhance the semantic
accuracy and the visual quality of the reconstructed image, we explore the
multi-modal fusion learning in SISR by proposing a Text-Guided Super-Resolution
(TGSR) framework, which can effectively utilize the information from the text
and image modalities. Different from existing methods, the proposed TGSR could
generate HR image details that match the text descriptions through a
coarse-to-fine process. Extensive experiments and ablation studies demonstrate
the effect of the TGSR, which exploits the text reference to recover realistic
images.
- Abstract(参考訳): ディープニューラルネットワークはシングルイメージスーパーレゾリューション(sisr)の性能を大きく向上させた。
従来の手法では、画像モダリティの入力のみに基づいて単一の高分解能(hr)ソリューションを復元する。
しかし、画像レベルの情報は、大きなアップスケーリング要因(x8,x16)に直面した適切な詳細と写実的な視覚的品質を予測するには不十分である。
本稿では,SISRを意味的画像詳細強調問題とみなして,真理に忠実な意味論的に合理的なHR画像を生成する新しい視点を提案する。
再構成画像の意味的精度と視覚的品質を向上させるため,テキストガイド型超解法(TGSR)フレームワークを提案し,テキストと画像のモダリティからの情報を有効に活用することで,SISRにおけるマルチモーダル融合学習を探索する。
既存の方法とは異なり、提案したTGSRは粗いプロセスを通じてテキスト記述と一致するHR画像の詳細を生成することができる。
大規模な実験とアブレーション研究は、テキスト参照を利用して現実的なイメージを復元するTGSRの効果を示す。
関連論文リスト
- CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、事前訓練された言語モデル(例えば、T5やCLIP)を使用して復元を強化する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - HiREN: Towards Higher Supervision Quality for Better Scene Text Image
Super-Resolution [32.4847482760475]
Scene text image super- resolution (STISR) は低解像度シーン画像からのテキスト認識のための重要な前処理技術である。
本稿では、まず、HR画像の品質を向上し、その後、HR画像の強化を監督として利用することで、STISRを向上する新しいアイデアを提案する。
論文 参考訳(メタデータ) (2023-07-31T05:32:57Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z) - Learning Structral coherence Via Generative Adversarial Network for
Single Image Super-Resolution [13.803141755183827]
近年,GAN(Generative Adversarial Network)に基づくSISR法により,全体の現実的SR画像が得られた。
SRプロセスにおける高分解能勾配図の復元により構造情報を保存するため, 発電機に勾配分岐を導入する。
さらに、U-netベースの判別器を用いて、画像全体と画素ごとの詳細な認証の両方について検討する。
論文 参考訳(メタデータ) (2021-01-25T15:26:23Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。