論文の概要: A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution
- arxiv url: http://arxiv.org/abs/2203.09388v1
- Date: Thu, 17 Mar 2022 15:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 15:25:02.594764
- Title: A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution
- Title(参考訳): 空間変形ロバストなシーンテキスト画像の超解像のためのテキスト注意ネットワーク
- Authors: Jianqi Ma, Zhetong Liang, Lei Zhang
- Abstract要約: シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
- 参考スコア(独自算出の注目度): 13.934846626570286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text image super-resolution aims to increase the resolution and
readability of the text in low-resolution images. Though significant
improvement has been achieved by deep convolutional neural networks (CNNs), it
remains difficult to reconstruct high-resolution images for spatially deformed
texts, especially rotated and curve-shaped ones. This is because the current
CNN-based methods adopt locality-based operations, which are not effective to
deal with the variation caused by deformations. In this paper, we propose a CNN
based Text ATTention network (TATT) to address this problem. The semantics of
the text are firstly extracted by a text recognition module as text prior
information. Then we design a novel transformer-based module, which leverages
global attention mechanism, to exert the semantic guidance of text prior to the
text reconstruction process. In addition, we propose a text structure
consistency loss to refine the visual appearance by imposing structural
consistency on the reconstructions of regular and deformed texts. Experiments
on the benchmark TextZoom dataset show that the proposed TATT not only achieves
state-of-the-art performance in terms of PSNR/SSIM metrics, but also
significantly improves the recognition accuracy in the downstream text
recognition task, particularly for text instances with multi-orientation and
curved shapes. Code is available at https://github.com/mjq11302010044/TATT.
- Abstract(参考訳): シーンテキスト画像は低解像度画像におけるテキストの解像度と可読性を高めることを目的としている。
深層畳み込みニューラルネットワーク(cnns)によって大きな改善がなされているが、空間的に変形したテキスト、特に回転および曲線状のテキストの高解像度画像の再構築は困難である。
これは、現在のCNNベースの手法が局所性に基づく操作を採用するためであり、変形による変動に対処するには有効ではない。
本稿では,CNN ベースの Text ATTention Network (TATT) を提案し,この問題に対処する。
テキストのセマンティクスは、まずテキスト事前情報としてテキスト認識モジュールによって抽出される。
次に,グローバル・アテンション・メカニズムを活用した新しいトランスフォーマティブ・モジュールの設計を行い,テキスト再構成プロセスに先立ってテキストの意味的指導を行う。
さらに,正規および変形したテキストの再構成に構造的整合性を与えることにより,視覚的外観を洗練させるテキスト構造整合性損失を提案する。
ベンチマークのTextZoomデータセットの実験では、提案したTATTはPSNR/SSIMの指標から最先端のパフォーマンスを達成するだけでなく、下流のテキスト認識タスクにおける認識精度を大幅に向上させる。
コードはhttps://github.com/mjq11302010044/TATTで入手できる。
関連論文リスト
- WAS: Dataset and Methods for Artistic Text Segmentation [57.61335995536524]
本稿では,芸術的テキストセグメンテーションの課題に焦点を当て,実際の芸術的テキストセグメンテーションデータセットを構築する。
本稿では,モデルが特別な形状のストローク領域を無視するのを防ぐために,レイヤワイド・モーメント・クエリを用いたデコーダを提案する。
また,大域構造に焦点を合わせるために,骨格支援ヘッドを提案する。
論文 参考訳(メタデータ) (2024-07-31T18:29:36Z) - PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution [18.936806519546508]
シーンテキスト画像スーパーレゾリューション(STISR)は,低解像度のシーンテキスト画像の解像度と可読性を同時に向上することを目的としている。
シーンテキスト画像の視覚構造と意味情報の2つの要因が認識性能に大きな影響を及ぼす。
本稿では,これらの要因による影響を軽減するために,事前注意ネットワーク(PEAN)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:11:20Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Text Prior Guided Scene Text Image Super-resolution [11.396781380648756]
Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。
我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。
STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:33Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。