論文の概要: End-to-end Handwritten Paragraph Text Recognition Using a Vertical
Attention Network
- arxiv url: http://arxiv.org/abs/2012.03868v1
- Date: Mon, 7 Dec 2020 17:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:21:43.776880
- Title: End-to-end Handwritten Paragraph Text Recognition Using a Vertical
Attention Network
- Title(参考訳): 縦型注意ネットワークを用いたエンドツーエンド手書き文認識
- Authors: Denis Coquenet, Cl\'ement Chatelain, Thierry Paquet
- Abstract要約: 本研究では,ハイブリッドアテンションを用いた統一型エンドツーエンドモデルを提案する。
3つの一般的なデータセット上で,文字誤り率を行と段落レベルで達成する。
- 参考スコア(独自算出の注目度): 2.277447144331876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unconstrained handwritten text recognition remains challenging for computer
vision systems. Paragraph text recognition is traditionally achieved by two
models: the first one for line segmentation and the second one for text line
recognition. We propose a unified end-to-end model using hybrid attention to
tackle this task. We achieve state-of-the-art character error rate at line and
paragraph levels on three popular datasets: 1.90% for RIMES, 4.32% for IAM and
3.63% for READ 2016. The proposed model can be trained from scratch, without
using any segmentation label contrary to the standard approach. Our code and
trained model weights are available at
https://github.com/FactoDeepLearning/VerticalAttentionOCR.
- Abstract(参考訳): コンピュータビジョンシステムでは、制約のない手書き文字認識が依然として難しい。
パラグラフテキスト認識は伝統的に2つのモデルによって達成される: ラインセグメンテーションのための第1モデルと、テキストライン認識のための第2モデルである。
この課題に対処するために,ハイブリッドアテンションを用いた統一エンド・ツー・エンドモデルを提案する。
RIMESは1.90%、IAMは4.32%、READ 2016は3.63%である。
提案するモデルは,標準手法に反するセグメンテーションラベルを使わずに,ゼロからトレーニングすることができる。
私たちのコードとトレーニングされたモデルウェイトは、https://github.com/factodeeplearning/verticalattentionocrで利用可能です。
関連論文リスト
- Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Towards End-to-end Handwritten Document Recognition [0.0]
手書き文字認識は、その多くの応用のために過去数十年にわたって広く研究されてきた。
本稿では,文書全体の手書きテキスト認識をエンドツーエンドで行うことで,これらの課題に対処することを提案する。
RIMES 2011, IAM, READ 2016 データセットの段落レベルでの最先端結果に到達し, これらのデータセットのラインレベル状態よりも優れていた。
論文 参考訳(メタデータ) (2022-09-30T10:31:22Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - SPAN: a Simple Predict & Align Network for Handwritten Paragraph
Recognition [2.277447144331876]
段落レベルでOCRを実行する終端から終端までの再帰のない完全畳み込みネットワークを提案する。
このフレームワークは、分離された行の認識に使用されるのと同じくらいシンプルで、3つの一般的なデータセットで競合する結果が得られる。
論文 参考訳(メタデータ) (2021-02-17T13:12:45Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page
Text Recognition by learning to unfold [6.09170287691728]
セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。
我々は、CTCで訓練された完全畳み込み単行文字認識装置を拡張可能な、新しいシンプルなニューラルネットワークモジュール、textbfOrigamiNetを提案する。
IAM と ICDAR 2017 の HTR ベンチマークでは,手書き文字認識の精度が他のすべての手法を上回り,最先端の文字誤り率を実現している。
論文 参考訳(メタデータ) (2020-06-12T22:18:02Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。