論文の概要: Rethinking Text Line Recognition Models
- arxiv url: http://arxiv.org/abs/2104.07787v1
- Date: Thu, 15 Apr 2021 21:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 07:58:37.581127
- Title: Rethinking Text Line Recognition Models
- Title(参考訳): テキスト行認識モデルの再考
- Authors: Daniel Hernandez Diaz, Siyang Qin, Reeve Ingle, Yasuhisa Fujii,
Alessandro Bissacco
- Abstract要約: 2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
- 参考スコア(独自算出の注目度): 57.47147190119394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of text line recognition. Unlike most
approaches targeting specific domains such as scene-text or handwritten
documents, we investigate the general problem of developing a universal
architecture that can extract text from any image, regardless of source or
input modality. We consider two decoder families (Connectionist Temporal
Classification and Transformer) and three encoder modules (Bidirectional LSTMs,
Self-Attention, and GRCLs), and conduct extensive experiments to compare their
accuracy and performance on widely used public datasets of scene and
handwritten text. We find that a combination that so far has received little
attention in the literature, namely a Self-Attention encoder coupled with the
CTC decoder, when compounded with an external language model and trained on
both public and internal data, outperforms all the others in accuracy and
computational complexity. Unlike the more common Transformer-based models, this
architecture can handle inputs of arbitrary length, a requirement for universal
line recognition. Using an internal dataset collected from multiple sources, we
also expose the limitations of current public datasets in evaluating the
accuracy of line recognizers, as the relatively narrow image width and sequence
length distributions do not allow to observe the quality degradation of the
Transformer approach when applied to the transcription of long lines.
- Abstract(参考訳): 本稿では,テキスト線認識の問題について検討する。
シーンテキストや手書き文書などの特定のドメインを対象とするほとんどのアプローチとは異なり、ソースや入力のモダリティに関わらず、任意の画像からテキストを抽出できるユニバーサルアーキテクチャを開発するという一般的な問題について検討する。
2つのデコーダ群(コネクショニストの時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM,自己認識,GRCL)について検討し,その精度と性能をシーンや手書きテキストの公開データセットで比較した。
外部言語モデルと組み合わされ、パブリックデータと内部データの両方でトレーニングされた場合、ctcデコーダと結合したセルフアテンションエンコーダは、他のすべての言語よりも正確で計算の複雑さにおいて優れていることが判明した。
より一般的なトランスフォーマーベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を扱うことができる。
複数のソースから収集された内部データセットを用いて、比較的狭い画像幅とシーケンス長分布は、長い行の書き起こしに適用しても、トランスフォーマーアプローチの品質劣化を観察できないため、ライン認識器の精度を評価する際の現在の公開データセットの限界を明らかにする。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Character Queries: A Transformer-based Approach to On-Line Handwritten
Character Segmentation [4.128716153761773]
本稿では,文字分割が代入問題となる場合に,事前に書き起こしが知られているシナリオに焦点を当てる。
k$-meansクラスタリングアルゴリズムにヒントを得て、クラスタ割り当ての観点から見た上で、Transformerベースのアーキテクチャを提示する。
提案手法の質を評価するために,2つの有名なオンライン手書きデータセットに対して,文字分割基底真理を生成する。
論文 参考訳(メタデータ) (2023-09-06T15:19:04Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文 参考訳(メタデータ) (2023-04-24T03:54:48Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。