論文の概要: Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks
- arxiv url: http://arxiv.org/abs/2210.06924v1
- Date: Thu, 13 Oct 2022 11:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:25:34.226011
- Title: Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks
- Title(参考訳): content perceptual loss と criss-cross transformer blocks によるシーンテキスト画像の超解像
- Authors: Rui Qin, Bin Wang and Yu-Wing Tai
- Abstract要約: テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 48.81850740907517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text image super-resolution is a unique and important task to enhance
readability of text images to humans. It is widely used as pre-processing in
scene text recognition. However, due to the complex degradation in natural
scenes, recovering high-resolution texts from the low-resolution inputs is
ambiguous and challenging. Existing methods mainly leverage deep neural
networks trained with pixel-wise losses designed for natural image
reconstruction, which ignore the unique character characteristics of texts. A
few works proposed content-based losses. However, they only focus on text
recognizers' accuracy, while the reconstructed images may still be ambiguous to
humans. Further, they often have weak generalizability to handle cross
languages. To this end, we present TATSR, a Text-Aware Text Super-Resolution
framework, which effectively learns the unique text characteristics using
Criss-Cross Transformer Blocks (CCTBs) and a novel Content Perceptual (CP)
Loss. The CCTB extracts vertical and horizontal content information from text
images by two orthogonal transformers, respectively. The CP Loss supervises the
text reconstruction with content semantics by multi-scale text recognition
features, which effectively incorporates content awareness into the framework.
Extensive experiments on various language datasets demonstrate that TATSR
outperforms state-of-the-art methods in terms of both recognition accuracy and
human perception.
- Abstract(参考訳): テキスト画像の可読性を高めるために,テキスト画像の高解像度化はユニークかつ重要な課題である。
シーンテキスト認識における前処理として広く使われている。
しかし、自然シーンの複雑な劣化により、低解像度入力から高解像度テキストを復元することは曖昧で困難である。
既存の手法は主に、テキストのユニークな特徴を無視した自然な画像再構成のために設計されたピクセル単位の損失で訓練されたディープニューラルネットワークを活用する。
いくつかの作品がコンテンツベースの損失を提案した。
しかし、それらはテキスト認識者の精度にのみ焦点を合わせ、再構成された画像は人間にはあいまいである。
さらに、それらはしばしばクロス言語を扱うための弱い一般化性を持つ。
そこで本研究では,Criss-Cross Transformer Blocks (CCTBs)とContent Perceptual (CP) Lossを用いて,テキストの特徴を効果的に学習するテキスト認識テキスト超解法フレームワークTATSRを提案する。
CCTBは、2つの直交変換器により、テキスト画像から垂直および水平の内容情報を抽出する。
CPロスは、マルチスケールテキスト認識機能によるコンテンツセマンティクスによるテキスト再構成を監督し、効果的にコンテンツ認識をフレームワークに組み込む。
様々な言語データセットに対する大規模な実験により、TATSRは認識精度と人間の知覚の両方の観点から最先端の手法より優れていることが示された。
関連論文リスト
- Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution [31.88960656995447]
テキスト画像中の文字のストロークレベルの内部構造に焦点を合わせるために,Stroke-Aware Scene Text Image Super-Resolution法を提案する。
具体的には、英語の文字と数字をストロークレベルに分解するためのルールを設計し、テキスト認識器を事前訓練して、ストロークレベルのアテンションマップを位置的手がかりとして提供する。
提案手法は,TextZoomと手作業で構築した漢字データセットDegraded-IC13上で,より区別可能な画像を生成することができる。
論文 参考訳(メタデータ) (2021-12-13T15:26:10Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。