論文の概要: Deformation Robust Text Spotting with Geometric Prior
- arxiv url: http://arxiv.org/abs/2308.16404v1
- Date: Thu, 31 Aug 2023 02:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 17:59:41.994652
- Title: Deformation Robust Text Spotting with Geometric Prior
- Title(参考訳): 幾何学的先行による変形ロバストテキストスポッティング
- Authors: Xixuan Hao, Aozhong Zhang, Xianze Meng and Bin Fu
- Abstract要約: 我々は,文字の複雑な変形の認識問題を解決するために,頑健なテキストスポッティング法(DR TextSpotter)を開発した。
グラフ畳み込みネットワークは、キャラクタの特徴とランドマークの特徴を融合させ、セマンティック推論を行い、異なるキャラクタの識別を強化する。
- 参考スコア(独自算出の注目度): 5.639053898266709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of text spotting is to perform text detection and recognition in an
end-to-end manner. Although the diversity of luminosity and orientation in
scene texts has been widely studied, the font diversity and shape variance of
the same character are ignored in recent works, since most characters in
natural images are rendered in standard fonts. To solve this problem, we
present a Chinese Artistic Dataset, termed as ARText, which contains 33,000
artistic images with rich shape deformation and font diversity. Based on this
database, we develop a deformation robust text spotting method (DR TextSpotter)
to solve the recognition problem of complex deformation of characters in
different fonts. Specifically, we propose a geometric prior module to highlight
the important features based on the unsupervised landmark detection
sub-network. A graph convolution network is further constructed to fuse the
character features and landmark features, and then performs semantic reasoning
to enhance the discrimination for different characters. The experiments are
conducted on ARText and IC19-ReCTS datasets. Our results demonstrate the
effectiveness of our proposed method.
- Abstract(参考訳): テキストスポッティングの目標は、テキストの検出と認識をエンドツーエンドで行うことである。
シーンテキストの明度と配向の多様性は広く研究されているが,近年では自然画像のほとんどの文字が標準フォントで表現されているため,同じ文字のフォントの多様性や形状のばらつきは無視されている。
この問題を解決するために,中国芸術データセット(ARText)を提案する。
本データベースでは,異なるフォントにおける文字の複雑な変形の認識問題を解決するために,変形頑健なテキストスポッティング法(DR TextSpotter)を開発した。
具体的には,教師なしランドマーク検出サブネットワークに基づく重要な特徴を強調する幾何学的事前モジュールを提案する。
グラフ畳み込みネットワークは、文字の特徴とランドマークの特徴を融合させ、その後、意味論的推論を行い、異なる文字の識別を強化する。
実験はARTextとIC19-ReCTSデータセットを用いて行われた。
提案手法の有効性を実証した。
関連論文リスト
- Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Research on Multilingual Natural Scene Text Detection Algorithm [4.514028820667202]
自然界における多言語テキストの検出において,低精度と高難易度の問題に対処する多言語テキスト検出モデルを提案する。
そこで我々は,SFM Swin Transformer機能抽出ネットワークを導入し,異なる言語にわたる文字やフォントの検出において,モデルの堅牢性を高める。
そこで本研究では,より効率的なテキスト検出のためのグローバルな特徴を抽出し,保存するグローバルセマンティックブランチを提案する。
論文 参考訳(メタデータ) (2023-12-18T12:46:35Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Person Text-Image Matching via Text-Featur Interpretability Embedding
and External Attack Node Implantation [22.070781214170164]
人物のテキスト画像マッチングは、テキスト記述を用いて特定の歩行者の画像を取得することを目的としている。
テキスト機能の解釈可能性の欠如は、それらと対応する画像の特徴を効果的に整合させることを困難にしている。
テキスト特徴解釈能力と外部攻撃ノードを組み込んだ人物画像マッチング手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T04:15:37Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - Exploring Font-independent Features for Scene Text Recognition [22.34023249700896]
近年,Scene Text Recognition (STR) が広く研究されている。
最近提案された多くの手法は、シーンテキストの任意の形状、レイアウト、配向に対応するよう特別に設計されている。
フォントの特徴と文字のコンテンツ特徴が絡み合っているこれらの手法は、新しいフォントスタイルのテキストを含むシーンイメージのテキスト認識において、不十分な性能を発揮する。
論文 参考訳(メタデータ) (2020-09-16T03:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。