論文の概要: AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting
- arxiv url: http://arxiv.org/abs/2008.00714v5
- Date: Tue, 6 Jul 2021 14:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:33:11.792891
- Title: AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting
- Title(参考訳): AE TextSpotter:曖昧なテキストスポッティングのための視覚と言語表現の学習
- Authors: Wenhai Wang, Xuebo Liu, Xiaozhong Ji, Enze Xie, Ding Liang, Zhibo
Yang, Tong Lu, Chunhua Shen, Ping Luo
- Abstract要約: 本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
- 参考スコア(独自算出の注目度): 98.08853679310603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text spotting aims to detect and recognize the entire word or sentence
with multiple characters in natural images. It is still challenging because
ambiguity often occurs when the spacing between characters is large or the
characters are evenly spread in multiple rows and columns, making many visually
plausible groupings of the characters (e.g. "BERLIN" is incorrectly detected as
"BERL" and "IN" in Fig. 1(c)). Unlike previous works that merely employed
visual features for text detection, this work proposes a novel text spotter,
named Ambiguity Eliminating Text Spotter (AE TextSpotter), which learns both
visual and linguistic features to significantly reduce ambiguity in text
detection. The proposed AE TextSpotter has three important benefits. 1) The
linguistic representation is learned together with the visual representation in
a framework. To our knowledge, it is the first time to improve text detection
by using a language model. 2) A carefully designed language module is utilized
to reduce the detection confidence of incorrect text lines, making them easily
pruned in the detection stage. 3) Extensive experiments show that AE
TextSpotter outperforms other state-of-the-art methods by a large margin. For
example, we carefully select a validation set of extremely ambiguous samples
from the IC19-ReCTS dataset, where our approach surpasses other methods by more
than 4%. The code has been released at
https://github.com/whai362/AE_TextSpotter. The image list and evaluation
scripts of the validation set have been released at
https://github.com/whai362/TDA-ReCTS.
- Abstract(参考訳): シーンテキストスポッティングは、自然画像中の複数の文字で単語や文全体を検出、認識することを目的としている。
文字間の間隔が大きい場合や、文字が複数の行や列に均等に広がる場合、曖昧さがしばしば発生し、文字の視覚的にもっともらしいグルーピング(例えば、図1(c)で「BERL」と「IN」と誤って検出される)が生じるため、依然として困難である。
テキスト検出に視覚的特徴を用いた従来の作品とは異なり、本研究では、テキスト検出におけるあいまいさを著しく低減するために視覚的特徴と言語的特徴の両方を学ぶ新しいテキストスポッターであるAmbiguity Elimination Text Spotter (AE TextSpotter)を提案する。
AE TextSpotterの提案には3つの重要な利点がある。
1) 言語表現は,フレームワーク内の視覚表現とともに学習される。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
2) 念入りに設計した言語モジュールを用いて、誤ったテキスト行の検出信頼性を低減し、検出段階で容易に切断する。
3) 広範な実験により,aetextspotter は他の最先端手法よりも高いマージンを示した。
例えば、IC19-ReCTSデータセットから極めて曖昧なサンプルの検証セットを慎重に選択し、アプローチは他の手法を4%以上上回ります。
コードはhttps://github.com/whai362/ae_textspotterでリリースされた。
検証セットの画像リストと評価スクリプトがhttps://github.com/whai362/TDA-ReCTSでリリースされた。
関連論文リスト
- TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - A3S: Adversarial learning of semantic representations for Scene-Text
Spotting [0.0]
シーンテキストスポッティング(Scene-text spotting)は、自然のシーン画像上のテキスト領域を予測し、そのテキスト文字を同時に認識するタスクである。
本稿では,シーンテキストスポッティング(A3S)における意味表現の対角学習を提案し,テキスト認識を含むエンドツーエンドの精度を向上させる。
A3Sは、既存の視覚的特徴に基づいてテキスト認識のみを実行するのではなく、検出されたテキスト領域における意味的特徴を同時に予測する。
論文 参考訳(メタデータ) (2023-02-21T12:59:18Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting [11.705454066278898]
本稿では,新しい検出非依存のエンド・ツー・エンド認識フレームワークDEERを提案する。
提案手法は,検出モジュールと認識モジュール間の密接な依存関係を低減する。
通常のテキストスポッティングベンチマークと任意の形のテキストスポッティングベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T02:41:05Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。