論文の概要: Scene Text Image Super-Resolution in the Wild
- arxiv url: http://arxiv.org/abs/2005.03341v3
- Date: Sun, 2 Aug 2020 03:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:33:06.589319
- Title: Scene Text Image Super-Resolution in the Wild
- Title(参考訳): 野生のシーンテキスト画像の超高解像度化
- Authors: Wenjia Wang, Enze Xie, Xuebo Liu, Wenhai Wang, Ding Liang, Chunhua
Shen, and Xiang Bai
- Abstract要約: 低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
- 参考スコア(独自算出の注目度): 112.90416737357141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resolution text images are often seen in natural scenes such as documents
captured by mobile phones. Recognizing low-resolution text images is
challenging because they lose detailed content information, leading to poor
recognition accuracy. An intuitive solution is to introduce super-resolution
(SR) techniques as pre-processing. However, previous single image
super-resolution (SISR) methods are trained on synthetic low-resolution images
(e.g.Bicubic down-sampling), which is simple and not suitable for real
low-resolution text recognition. To this end, we pro-pose a real scene text SR
dataset, termed TextZoom. It contains paired real low-resolution and
high-resolution images which are captured by cameras with different focal
length in the wild. It is more authentic and challenging than synthetic data,
as shown in Fig. 1. We argue improv-ing the recognition accuracy is the
ultimate goal for Scene Text SR. In this purpose, a new Text Super-Resolution
Network termed TSRN, with three novel modules is developed. (1) A sequential
residual block is proposed to extract the sequential information of the text
images. (2) A boundary-aware loss is designed to sharpen the character
boundaries. (3) A central alignment module is proposed to relieve the
misalignment problem in TextZoom. Extensive experiments on TextZoom demonstrate
that our TSRN largely improves the recognition accuracy by over 13%of CRNN, and
by nearly 9.0% of ASTER and MORAN compared to synthetic SR data. Furthermore,
our TSRN clearly outperforms 7 state-of-the-art SR methods in boosting the
recognition accuracy of LR images in TextZoom. For example, it outperforms
LapSRN by over 5% and 8%on the recognition accuracy of ASTER and CRNN. Our
results suggest that low-resolution text recognition in the wild is far from
being solved, thus more research effort is needed.
- Abstract(参考訳): 低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
低解像度のテキスト画像を認識することは、詳細なコンテンツ情報を失うため、認識精度が低下するため難しい。
直感的な解決策は、前処理として超解像(SR)技術を導入することである。
しかし、従来の単一画像超解像法(SISR)は、合成低解像度画像(例えば、バイコビックダウンサンプリング)で訓練されており、実際の低解像度テキスト認識には適していない。
そこで本研究では,実際のシーンテキストSRデータセットであるTextZoomを提案する。
実際の低解像度と高解像度の2枚の画像を、野生の焦点距離の異なるカメラで撮影する。
図1に示すように、合成データよりも正確で挑戦的です。
認識精度の即興化がScene Text SRの究極の目標であると主張する。
この目的のために、TSRNと呼ばれる3つの新しいモジュールを備えた新しいテキスト超解法ネットワークを開発した。
1)テキスト画像の逐次情報を抽出するために,逐次的残差ブロックを提案する。
2) 文字境界を鋭くするために境界認識損失を設計する。
(3) TextZoomのアライメント問題を軽減するために, 中央アライメントモジュールを提案する。
TextZoomの大規模な実験により、我々のTSRNはCRNNの13%以上、ASTERとMORANの約9.0%の認識精度を合成SRデータと比較して大幅に向上することが示された。
さらに、TSRNは、TextZoomにおけるLR画像の認識精度を高めるために、7つの最先端SR手法よりも明らかに優れています。
例えば、LapSRNを5%以上、ASTERとCRNNの認識精度の8%以上で上回っている。
以上の結果から,低解像度テキスト認識の課題は解決に至らず,さらなる研究が必要であることが示唆された。
関連論文リスト
- Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、事前訓練された言語モデル(例えば、T5やCLIP)を使用して復元を強化する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - C3-STISR: Scene Text Image Super-resolution with Triple Clues [22.41802601665541]
Scene text image super- resolution (STISR) は、テキスト認識のための重要な前処理タスクとみなされている。
最近のアプローチでは、認識者のフィードバックを超解像を導く手がかりとして用いている。
超解像誘導のための手がかりとして,認識者のフィードバック,視覚情報,言語情報を共同で活用する新しい手法C3-STISRを提案する。
論文 参考訳(メタデータ) (2022-04-29T12:39:51Z) - Hyperspectral Image Super-resolution via Deep Progressive Zero-centric
Residual Learning [62.52242684874278]
空間情報とスペクトル情報の相互モダリティ分布が問題となる。
本稿では,PZRes-Netという,新しいテクスライトウェイトなディープニューラルネットワークベースのフレームワークを提案する。
本フレームワークは,高分解能かつテクテッセロ中心の残像を学習し,シーンの空間的詳細を高頻度で表現する。
論文 参考訳(メタデータ) (2020-06-18T06:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。