論文の概要: Towards End-to-end Handwritten Document Recognition
- arxiv url: http://arxiv.org/abs/2209.15362v1
- Date: Fri, 30 Sep 2022 10:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:41:05.517089
- Title: Towards End-to-end Handwritten Document Recognition
- Title(参考訳): エンドツーエンド手書き文書認識を目指して
- Authors: Denis Coquenet
- Abstract要約: 手書き文字認識は、その多くの応用のために過去数十年にわたって広く研究されてきた。
本稿では,文書全体の手書きテキスト認識をエンドツーエンドで行うことで,これらの課題に対処することを提案する。
RIMES 2011, IAM, READ 2016 データセットの段落レベルでの最先端結果に到達し, これらのデータセットのラインレベル状態よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten text recognition has been widely studied in the last decades for
its numerous applications. Nowadays, the state-of-the-art approach consists in
a three-step process. The document is segmented into text lines, which are then
ordered and recognized. However, this three-step approach has many drawbacks.
The three steps are treated independently whereas they are closely related.
Errors accumulate from one step to the other. The ordering step is based on
heuristic rules which prevent its use for documents with a complex layouts or
for heterogeneous documents. The need for additional physical segmentation
annotations for training the segmentation stage is inherent to this approach.
In this thesis, we propose to tackle these issues by performing the handwritten
text recognition of whole document in an end-to-end way. To this aim, we
gradually increase the difficulty of the recognition task, moving from isolated
lines to paragraphs, and then to whole documents. We proposed an approach at
the line level, based on a fully convolutional network, in order to design a
first generic feature extraction step for the handwriting recognition task.
Based on this preliminary work, we studied two different approaches to
recognize handwritten paragraphs. We reached state-of-the-art results at
paragraph level on the RIMES 2011, IAM and READ 2016 datasets and outperformed
the line-level state of the art on these datasets. We finally proposed the
first end-to-end approach dedicated to the recognition of both text and layout,
at document level. Characters and layout tokens are sequentially predicted
following a learned reading order. We proposed two new metrics we used to
evaluate this task on the RIMES 2009 and READ 2016 dataset, at page level and
double-page level.
- Abstract(参考訳): 手書きのテキスト認識は、過去数十年間、多くの応用で広く研究されてきた。
現在、最先端のアプローチは3段階のプロセスから成り立っている。
文書はテキスト行に分割され、順序付けされ、認識される。
しかし、この三段階アプローチには多くの欠点がある。
3つのステップは独立して扱われるが、密接な関係がある。
エラーは、あるステップから別のステップに蓄積します。
順序付けステップは、複雑なレイアウトを持つドキュメントや異種文書での使用を防止するヒューリスティックなルールに基づいている。
セグメンテーションステージをトレーニングするための物理的なセグメンテーションアノテーションの追加は、このアプローチに固有のものだ。
本稿では,文書全体のテキスト認識をエンドツーエンドで行うことで,これらの課題に対処することを提案する。
この目的のために, 認識作業の難しさを徐々に増し, 孤立した行から段落へ移動し, 文書全体へ移行する。
本研究は,手書き認識タスクのための汎用的な特徴抽出ステップを設計するために,完全畳み込みネットワークに基づくラインレベルでのアプローチを提案する。
この予備研究に基づいて,手書き段落認識のための2つのアプローチを検討した。
RIMES 2011, IAM, READ 2016 データセットの段落レベルでの最先端結果に到達し, これらのデータセットのラインレベル状態よりも優れていた。
最終的に、テキストとレイアウトの両方を文書レベルで認識するための最初のエンドツーエンドアプローチを提案しました。
学習した読み順に従って文字とレイアウトトークンを順次予測する。
我々は、このタスクをRIMES 2009とREAD 2016データセットでページレベルとダブルページレベルで評価するために使用した2つの新しい指標を提案した。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。
私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文 参考訳(メタデータ) (2023-07-15T21:49:22Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - An end-to-end, interactive Deep Learning based Annotation system for
cursive and print English handwritten text [0.0]
我々は、印刷版とカーシブ版の両方で書かれたオフライン手書きの原稿に注釈を付ける、革新的で完全なエンドツーエンドパイプラインを提示する。
本手法は,最先端のテキスト検出モデルに基づいて構築された検出システムと,認識システムのための独自のDeep Learningモデルとのアーキテクチャ結合を含む。
論文 参考訳(メタデータ) (2023-04-18T00:24:07Z) - Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:56:25Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - Transformer-Based Approach for Joint Handwriting and Named Entity
Recognition in Historical documents [1.7491858164568674]
本研究は,手書き文書における名前付きエンティティ認識にトランスフォーマネットワークを採用した最初のアプローチを示す。
我々は,Esposalles データベースを用いた ICDAR 2017 Information extract コンペティションにおいて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-12-08T09:26:21Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。