論文の概要: Out of Length Text Recognition with Sub-String Matching
- arxiv url: http://arxiv.org/abs/2407.12317v1
- Date: Wed, 17 Jul 2024 05:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:27:38.683482
- Title: Out of Length Text Recognition with Sub-String Matching
- Title(参考訳): サブ文字列マッチングによる長文認識
- Authors: Yongkun Du, Zhineng Chen, Caiyan Jia, Xieping Gao, Yu-Gang Jiang,
- Abstract要約: 本稿では,これをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは、複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは、サブストリングをマッチングし、次の文字列と前の文字を同時に認識する。
- 参考スコア(独自算出の注目度): 54.63761108308825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Text Recognition (STR) methods have demonstrated robust performance in word-level text recognition. However, in applications the text image is sometimes long due to detected with multiple horizontal words. It triggers the requirement to build long text recognition models from readily available short word-level text datasets, which has been less studied previously. In this paper, we term this the Out of Length (OOL) text recognition. We establish a new Long Text Benchmark (LTB) to facilitate the assessment of different methods in long text recognition. Meanwhile, we propose a novel method called OOL Text Recognition with sub-String Matching (SMTR). SMTR comprises two cross-attention-based modules: one encodes a sub-string containing multiple characters into next and previous queries, and the other employs the queries to attend to the image features, matching the sub-string and simultaneously recognizing its next and previous character. SMTR can recognize text of arbitrary length by iterating the process above. To avoid being trapped in recognizing highly similar sub-strings, we introduce a regularization training to compel SMTR to effectively discover subtle differences between similar sub-strings for precise matching. In addition, we propose an inference augmentation to alleviate confusion caused by identical sub-strings and improve the overall recognition efficiency. Extensive experimental results reveal that SMTR, even when trained exclusively on short text, outperforms existing methods in public short text benchmarks and exhibits a clear advantage on LTB. Code: \url{https://github.com/Topdu/OpenOCR}.
- Abstract(参考訳): Scene Text Recognition (STR) 法は単語レベルのテキスト認識において頑健な性能を示した。
しかし、アプリケーションでは、複数の水平な単語で検出されるため、テキストイメージが長い場合もあります。
これは、あまり研究されていない短い単語レベルのテキストデータセットから、長いテキスト認識モデルを構築する必要が生じる。
本稿では,これをOOL(Out of Length)テキスト認識と呼ぶ。
我々は,Long Text Benchmark (LTB) を新たに構築し,長文認識における異なる手法の評価を容易にする。
一方,サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用し、サブストリングをマッチングし、次の文字列と前の文字を同時に認識する。
SMTRは上記のプロセスを反復することで任意の長さのテキストを認識することができる。
非常に類似のサブストリングを認識するために,SMTRを強制する正規化トレーニングを導入し,類似のサブストリング間の微妙な違いを正確に認識するために効果的に発見する。
さらに,同一のサブストリングによる混乱を緩和し,全体的な認識効率を向上させるための推論拡張を提案する。
大規模な実験結果から,SMTRは短いテキストのみに訓練された場合でも,公開短いテキストベンチマークにおいて既存の手法よりも優れており,LCBに対して明らかな優位性を示すことが明らかとなった。
コード: \url{https://github.com/Topdu/OpenOCR}。
関連論文リスト
- Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition [27.280917081410955]
LISTER (Longth-Insensitive Scene TExt Recognizer) という手法を提案する。
隣接デコーダを提案し, 隣り合う新しい行列の助けを借りて, 正確なキャラクタアテンションマップを得る。
機能拡張モジュールは、低コストで長距離依存性をモデル化するために設計されている。
論文 参考訳(メタデータ) (2023-08-24T13:26:18Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。