論文の概要: Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter
- arxiv url: http://arxiv.org/abs/2106.05920v1
- Date: Thu, 10 Jun 2021 17:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:19:25.550091
- Title: Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter
- Title(参考訳): Implicit Feature Alignment: テキスト認識をテキストスポッターに変換することを学ぶ
- Authors: Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Dezhi Peng, Zhe Li, Mengchao
He, Yongpan Wang, Canjie Luo
- Abstract要約: 我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
- 参考スコア(独自算出の注目度): 38.4211220941874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text recognition is a popular research subject with many associated
challenges. Despite the considerable progress made in recent years, the text
recognition task itself is still constrained to solve the problem of reading
cropped line text images and serves as a subtask of optical character
recognition (OCR) systems. As a result, the final text recognition result is
limited by the performance of the text detector. In this paper, we propose a
simple, elegant and effective paradigm called Implicit Feature Alignment (IFA),
which can be easily integrated into current text recognizers, resulting in a
novel inference mechanism called IFAinference. This enables an ordinary text
recognizer to process multi-line text such that text detection can be
completely freed. Specifically, we integrate IFA into the two most prevailing
text recognition streams (attention-based and CTC-based) and propose
attention-guided dense prediction (ADP) and Extended CTC (ExCTC). Furthermore,
the Wasserstein-based Hollow Aggregation Cross-Entropy (WH-ACE) is proposed to
suppress negative predictions to assist in training ADP and ExCTC. We
experimentally demonstrate that IFA achieves state-of-the-art performance on
end-to-end document recognition tasks while maintaining the fastest speed, and
ADP and ExCTC complement each other on the perspective of different application
scenarios. Code will be available at
https://github.com/WangTianwei/Implicit-feature-alignment.
- Abstract(参考訳): テキスト認識は、多くの関連する課題を持つ人気のある研究テーマである。
近年の進歩にもかかわらず、テキスト認識タスク自体は、刈り取られたテキスト画像を読み取るという問題を解決し、光学文字認識(OCR)システムのサブタスクとして機能するように制約されている。
その結果、最終的なテキスト認識結果は、テキスト検出器の性能によって制限される。
本稿では,現行のテキスト認識器に容易に統合可能な,シンプルでエレガントで効果的な特徴アライメント(ifa)と呼ばれるパラダイムを提案し,ifainferenceと呼ばれる新しい推論機構を提案する。
これにより、通常のテキスト認識者は、テキスト検出を完全に解放できるように、マルチラインテキストを処理できる。
具体的には、IFAを2つの一般的なテキスト認識ストリーム(アテンションベースとCTCベース)に統合し、注意誘導密度予測(ADP)と拡張CTC(ExCTC)を提案する。
さらに,wasserstein-based hollow aggregate cross-entropy (wh-ace) はadpとextcのトレーニングを支援する負の予測を抑制するために提案されている。
実験により,高速な文書認識作業において,IFAが最先端の文書認識タスクの最先端性能を実現し,ADPとExCTCがアプリケーションシナリオの観点で相互に補完することを示した。
コードはhttps://github.com/WangTianwei/Implicit-feature-alignmentで入手できる。
関連論文リスト
- Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval [13.315951821189538]
シーンテキスト検索は、画像ギャラリーからクエリテキストを含むすべての画像を見つけることを目的としている。
現在の取り組みでは、複雑なテキスト検出および/または認識プロセスを必要とする光学文字認識(OCR)パイプラインを採用する傾向にある。
我々は,OCRのないシーンテキスト検索のためのCLIP(Contrastive Language- Image Pre-Trening)の本質的な可能性について検討する。
論文 参考訳(メタデータ) (2024-08-01T10:25:14Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning [41.56134008044702]
Boxは、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整する強化学習ベースの方法である。
実験により、調整された境界ボックスをトレーニングの真理として使用する場合、エンド・ツー・エンドのテキスト認識システムの性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-07-25T06:58:45Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。