論文の概要: Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2112.08171v1
- Date: Mon, 13 Dec 2021 15:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 07:51:20.554137
- Title: Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution
- Title(参考訳): Stroke-Aware Scene Text Image Super-Resolution
- Authors: Jingye Chen, Haiyang Yu, Jianqi Ma, Bin Li, Xiangyang Xue
- Abstract要約: テキスト画像中の文字のストロークレベルの内部構造に焦点を合わせるために,Stroke-Aware Scene Text Image Super-Resolution法を提案する。
具体的には、英語の文字と数字をストロークレベルに分解するためのルールを設計し、テキスト認識器を事前訓練して、ストロークレベルのアテンションマップを位置的手がかりとして提供する。
提案手法は,TextZoomと手作業で構築した漢字データセットDegraded-IC13上で,より区別可能な画像を生成することができる。
- 参考スコア(独自算出の注目度): 31.88960656995447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last decade, the blossom of deep learning has witnessed the rapid
development of scene text recognition. However, the recognition of
low-resolution scene text images remains a challenge. Even though some
super-resolution methods have been proposed to tackle this problem, they
usually treat text images as general images while ignoring the fact that the
visual quality of strokes (the atomic unit of text) plays an essential role for
text recognition. According to Gestalt Psychology, humans are capable of
composing parts of details into the most similar objects guided by prior
knowledge. Likewise, when humans observe a low-resolution text image, they will
inherently use partial stroke-level details to recover the appearance of
holistic characters. Inspired by Gestalt Psychology, we put forward a
Stroke-Aware Scene Text Image Super-Resolution method containing a
Stroke-Focused Module (SFM) to concentrate on stroke-level internal structures
of characters in text images. Specifically, we attempt to design rules for
decomposing English characters and digits at stroke-level, then pre-train a
text recognizer to provide stroke-level attention maps as positional clues with
the purpose of controlling the consistency between the generated
super-resolution image and high-resolution ground truth. The extensive
experimental results validate that the proposed method can indeed generate more
distinguishable images on TextZoom and manually constructed Chinese character
dataset Degraded-IC13. Furthermore, since the proposed SFM is only used to
provide stroke-level guidance when training, it will not bring any time
overhead during the test phase. Code is available at
https://github.com/FudanVI/FudanOCR/tree/main/text-gestalt.
- Abstract(参考訳): 過去10年間で、深層学習の花は、シーンテキスト認識の急速な発展を目撃してきた。
しかし,低解像度テキスト画像の認識は依然として課題である。
この問題に対処するためにいくつかの超解像法が提案されているが、通常はテキスト画像は一般的な画像として扱うが、ストロークの視覚的品質(テキストの原子単位)がテキスト認識に不可欠な役割を果たすという事実を無視している。
Gestalt Psychologyによると、人間は詳細の一部を以前の知識によって導かれる最も類似した物体に組み立てることができる。
同様に、人間が低解像度のテキスト画像を見るとき、それらは本質的に部分的なストロークレベルの詳細を使って、全体的な文字の出現を回復する。
ゲシュタルト心理学に触発され,テキスト画像中の文字のストロークレベル内部構造に集中するストローク中心モジュール(sfm)を含むストローク対応テキスト画像超解像法を提唱した。
具体的には、ストロークレベルで英語文字と数字を分解するルールを設計し、その後テキスト認識器を事前学習して、生成された超高解像度画像と高分解能地上真理との一貫性を制御すべく、ストロークレベルの注意マップを位置手がかりとして提供する。
提案手法は,TextZoomと手作業で構築した漢字データセットDegraded-IC13上で,より識別可能な画像を生成することができることを確認した。
さらに、提案したSFMは、トレーニング時にストロークレベルのガイダンスを提供するのにのみ使用されるため、テストフェーズのオーバーヘッドは発生しない。
コードはhttps://github.com/FudanVI/FudanOCR/tree/main/text-gestaltで入手できる。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Text Image Inpainting via Global Structure-Guided Diffusion Models [22.859984320894135]
現実世界のテキストは、環境や人為的な要因によって引き起こされる腐食問題によって損傷を受けることがある。
現在の塗装技術は、しばしばこの問題に適切に対処するのに失敗する。
我々は,新たなニューラルネットワークフレームワークであるGlobal Structure-Guided Diffusion Model (GSDM) を潜在的ソリューションとして開発する。
論文 参考訳(メタデータ) (2024-01-26T13:01:28Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。