論文の概要: LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2308.12774v1
- Date: Thu, 24 Aug 2023 13:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 13:57:10.887110
- Title: LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition
- Title(参考訳): LISTER: 長さ不感なシーンテキスト認識のための近隣デコーディング
- Authors: Changxu Cheng, Peng Wang, Cheng Da, Qi Zheng, Cong Yao
- Abstract要約: LISTER (Longth-Insensitive Scene TExt Recognizer) という手法を提案する。
隣接デコーダを提案し, 隣り合う新しい行列の助けを借りて, 正確なキャラクタアテンションマップを得る。
機能拡張モジュールは、低コストで長距離依存性をモデル化するために設計されている。
- 参考スコア(独自算出の注目度): 27.280917081410955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The diversity in length constitutes a significant characteristic of text. Due
to the long-tail distribution of text lengths, most existing methods for scene
text recognition (STR) only work well on short or seen-length text, lacking the
capability of recognizing longer text or performing length extrapolation. This
is a crucial issue, since the lengths of the text to be recognized are usually
not given in advance in real-world applications, but it has not been adequately
investigated in previous works. Therefore, we propose in this paper a method
called Length-Insensitive Scene TExt Recognizer (LISTER), which remedies the
limitation regarding the robustness to various text lengths. Specifically, a
Neighbor Decoder is proposed to obtain accurate character attention maps with
the assistance of a novel neighbor matrix regardless of the text lengths.
Besides, a Feature Enhancement Module is devised to model the long-range
dependency with low computation cost, which is able to perform iterations with
the neighbor decoder to enhance the feature map progressively. To the best of
our knowledge, we are the first to achieve effective length-insensitive scene
text recognition. Extensive experiments demonstrate that the proposed LISTER
algorithm exhibits obvious superiority on long text recognition and the ability
for length extrapolation, while comparing favourably with the previous
state-of-the-art methods on standard benchmarks for STR (mainly short text).
- Abstract(参考訳): 長さの多様性はテキストの重要な特徴である。
テキストの長さの長い分布のため、シーンテキスト認識(STR)のほとんどの既存の手法は、長いテキストを認識したり、長さ外挿を行う能力に欠け、短いテキストや見えないテキストでのみうまく機能する。
認識すべきテキストの長さは通常、実世界のアプリケーションでは事前に与えられていないが、以前の作品では十分に研究されていないため、これは重要な問題である。
そこで本稿では,様々なテキスト長に対するロバスト性に関する制限を緩和する,長さ非感受性シーンテキスト認識器(lister)という手法を提案する。
具体的には, テキスト長にかかわらず, 隣接行列の助けを借りて, 正確なキャラクタアテンションマップを得るために, 隣接デコーダを提案する。
また、機能拡張モジュールは、低計算コストで長距離依存性をモデル化するために考案され、隣接するデコーダと共にイテレーションを実行し、機能マップを段階的に強化することができる。
最善の知識を得るためには、我々は、長さに敏感なシーンテキスト認識を効果的に達成した最初の人物です。
拡張実験により,提案したLISTERアルゴリズムは,STR(主に短いテキスト)の標準ベンチマークにおける従来の最先端手法と比較して,長文認識と長文外挿能力に明らかな優位性を示した。
関連論文リスト
- Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval [13.315951821189538]
シーンテキスト検索は、画像ギャラリーからクエリテキストを含むすべての画像を見つけることを目的としている。
現在の取り組みでは、複雑なテキスト検出および/または認識プロセスを必要とする光学文字認識(OCR)パイプラインを採用する傾向にある。
我々は,OCRのないシーンテキスト検索のためのCLIP(Contrastive Language- Image Pre-Trening)の本質的な可能性について検討する。
論文 参考訳(メタデータ) (2024-08-01T10:25:14Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - Word length-aware text spotting: Enhancing detection and recognition in
dense text image [33.44340604133642]
シーンテキスト画像の検出と認識のための新しい単語長認識スポッターであるWordLenSpotterを提案する。
我々は、特に高密度テキスト画像の尾データにおいて、長短の単語のスポッティング機能を改善する。
論文 参考訳(メタデータ) (2023-12-25T10:46:20Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Text Guide: Improving the quality of long text classification by a text
selection method based on feature importance [0.0]
そこで本研究では,原文長を予め定義された限界まで短縮するテキスト変換方式であるtext guideを提案する。
長文分類に特化して設計された最近の言語モデルの性能向上に,テキストガイドが有効であることを示す。
論文 参考訳(メタデータ) (2021-04-15T04:10:08Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。