論文の概要: Text Prior Guided Scene Text Image Super-resolution
- arxiv url: http://arxiv.org/abs/2106.15368v1
- Date: Tue, 29 Jun 2021 12:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:25:02.444685
- Title: Text Prior Guided Scene Text Image Super-resolution
- Title(参考訳): テキスト先行案内シーンテキスト画像の超解像
- Authors: Jianqi Ma, Shi Guo, Lei Zhang
- Abstract要約: Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。
我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。
STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.396781380648756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text image super-resolution (STISR) aims to improve the resolution and
visual quality of low-resolution (LR) scene text images, and consequently boost
the performance of text recognition. However, most of existing STISR methods
regard text images as natural scene images, ignoring the categorical
information of text. In this paper, we make an inspiring attempt to embed
categorical text prior into STISR model training. Specifically, we adopt the
character probability sequence as the text prior, which can be obtained
conveniently from a text recognition model. The text prior provides categorical
guidance to recover high-resolution (HR) text images. On the other hand, the
reconstructed HR image can refine the text prior in return. Finally, we present
a multi-stage text prior guided super-resolution (TPGSR) framework for STISR.
Our experiments on the benchmark TextZoom dataset show that TPGSR can not only
effectively improve the visual quality of scene text images, but also
significantly improve the text recognition accuracy over existing STISR
methods. Our model trained on TextZoom also demonstrates certain generalization
capability to the LR images in other datasets.
- Abstract(参考訳): シーンテキスト画像スーパーレゾリューション(stisr)は、低解像度(lr)シーンテキスト画像の解像度と視覚品質を改善し、テキスト認識の性能を向上させることを目的としている。
しかし、既存のSTISR手法の多くは、テキストの分類情報を無視して、テキストイメージを自然なシーンイメージとみなしている。
本稿では,stisrモデルの学習に先立って,カテゴリー的テキストを組み込むという印象的な試みを行う。
具体的には、文字確率列を先行するテキストとして採用し、テキスト認識モデルから便利に得ることができる。
テキスト先行は、高解像度(HR)テキストイメージを復元するための分類的ガイダンスを提供する。
一方、再構成されたHR画像は、返却前にテキストを洗練することができる。
最後に、STISRのためのマルチステージテキストガイド付き超解像(TPGSR)フレームワークを提案する。
ベンチマークのTextZoomデータセットを用いた実験により,TPGSRはシーンテキスト画像の視覚的品質を効果的に向上するだけでなく,既存のSTISR法よりもテキスト認識精度を大幅に向上させることができることがわかった。
また、TextZoomでトレーニングしたモデルでは、他のデータセットのLR画像に対して特定の一般化能力を示す。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、事前訓練された言語モデル(例えば、T5やCLIP)を使用して復元を強化する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - A Benchmark for Chinese-English Scene Text Image Super-resolution [15.042152725255171]
Scene Text Image Super- resolution (STISR) は、低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。
現存する作品の多くは、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いている。
我々は,STISRのタスクに対して,実世界の中国語と英語のベンチマークデータセットであるReal-CEを提案する。
論文 参考訳(メタデータ) (2023-08-07T02:57:48Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文 参考訳(メタデータ) (2021-05-12T07:50:42Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。