論文の概要: RobustScanner: Dynamically Enhancing Positional Clues for Robust Text
Recognition
- arxiv url: http://arxiv.org/abs/2007.07542v2
- Date: Fri, 17 Jul 2020 07:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:53:35.439486
- Title: RobustScanner: Dynamically Enhancing Positional Clues for Robust Text
Recognition
- Title(参考訳): RobustScanner:ロバストテキスト認識のための動的位置補正
- Authors: Xiaoyu Yue, Zhanghui Kuang, Chenhao Lin, Hongbin Sun, and Wayne Zhang
- Abstract要約: 文字レベルのシーケンスデコーダは文脈情報だけでなく位置情報も利用することを示す。
本稿では,新たな位置強調分岐を提案し,シーンテキスト認識のためのデコーダアテンションモジュールと出力を動的に融合する。
提案手法はemphRobustScannerと呼ばれ、文脈と位置の手がかりの動的比で個々の文字を復号する。
- 参考スコア(独自算出の注目度): 31.62436356768889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention-based encoder-decoder framework has recently achieved
impressive results for scene text recognition, and many variants have emerged
with improvements in recognition quality. However, it performs poorly on
contextless texts (e.g., random character sequences) which is unacceptable in
most of real application scenarios. In this paper, we first deeply investigate
the decoding process of the decoder. We empirically find that a representative
character-level sequence decoder utilizes not only context information but also
positional information. Contextual information, which the existing approaches
heavily rely on, causes the problem of attention drift. To suppress such
side-effect, we propose a novel position enhancement branch, and dynamically
fuse its outputs with those of the decoder attention module for scene text
recognition. Specifically, it contains a position aware module to enable the
encoder to output feature vectors encoding their own spatial positions, and an
attention module to estimate glimpses using the positional clue (i.e., the
current decoding time step) only. The dynamic fusion is conducted for more
robust feature via an element-wise gate mechanism. Theoretically, our proposed
method, dubbed \emph{RobustScanner}, decodes individual characters with dynamic
ratio between context and positional clues, and utilizes more positional ones
when the decoding sequences with scarce context, and thus is robust and
practical. Empirically, it has achieved new state-of-the-art results on popular
regular and irregular text recognition benchmarks while without much
performance drop on contextless benchmarks, validating its robustness in both
contextual and contextless application scenarios.
- Abstract(参考訳): 注目ベースのエンコーダ・デコーダフレームワークは近年,シーンテキスト認識において印象的な成果を上げており,認識品質の向上とともに多くの変種が出現している。
しかし、コンテキストレスのテキスト(例えばランダムな文字列)では性能が悪く、実際のアプリケーションシナリオのほとんどでは受け入れられない。
本稿ではまず,デコーダの復号化過程について深く検討する。
代表的な文字レベルのシーケンスデコーダは文脈情報だけでなく位置情報も活用している。
既存のアプローチが強く依存している文脈情報は、注意の漂流の問題を引き起こす。
このような副作用を抑制するために,新たな位置強調ブランチを提案し,その出力をシーンテキスト認識のためのデコーダアテンションモジュールと動的に融合する。
具体的には、エンコーダが自身の空間位置を符号化する特徴ベクトルを出力できる位置認識モジュールと、位置手がかり(すなわち、現在の復号時間ステップ)のみを用いてスリープを推定する注目モジュールとを含む。
ダイナミックフュージョンは、エレメントワイズゲート機構を介してよりロバストな機能のために実行される。
理論的には, 提案手法である \emph{robustscanner} は, 文脈と位置の手がかりの動的比で個々の文字をデコードし, 文脈の少ないデコードシーケンスにおいてより位置的文字を使用するため, 頑健かつ実用的である。
経験的には、一般的な正規および不規則なテキスト認識ベンチマークで新たな最先端結果が得られたが、コンテキストレスベンチマークではパフォーマンスが低下せず、コンテキストレスとコンテキストレスの両方のアプリケーションシナリオで堅牢性が検証された。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.525052547053668]
多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコード戦略を採用する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T08:03:19Z) - Co-Speech Gesture Detection through Multi-Phase Sequence Labeling [3.924524252255593]
本稿では,タスクをマルチフェーズシーケンスラベリング問題として再編成する新しいフレームワークを提案する。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
論文 参考訳(メタデータ) (2023-08-21T12:27:18Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - Representation and Correlation Enhanced Encoder-Decoder Framework for
Scene Text Recognition [10.496558786568672]
本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced-Decoder Framework(RCEED)を提案する。
エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。
デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法が用いられている。
論文 参考訳(メタデータ) (2021-06-13T10:36:56Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition [17.191496890376197]
そこで我々は,低品質シーンテキストを頑健に認識するために,エンコーダ・デコーダ・フレームワークを改良したセマンティクスを提案する。
提案するフレームワークは、低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-05-22T03:02:46Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。