論文の概要: DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition
- arxiv url: http://arxiv.org/abs/2203.12273v1
- Date: Wed, 23 Mar 2022 08:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 15:24:40.498077
- Title: DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition
- Title(参考訳): DAN:手書き文書認識のためのセグメンテーションフリー文書注意ネットワーク
- Authors: Denis Coquenet and Cl\'ement Chatelain and Thierry Paquet
- Abstract要約: 手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
- 参考スコア(独自算出の注目度): 1.7875811547963403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unconstrained handwritten document recognition is a challenging computer
vision task. It is traditionally handled by a two-step approach combining line
segmentation followed by text line recognition. For the first time, we propose
an end-to-end segmentation-free architecture for the task of handwritten
document recognition: the Document Attention Network. In addition to the text
recognition, the model is trained to label text parts using begin and end tags
in an XML-like fashion. This model is made up of an FCN encoder for feature
extraction and a stack of transformer decoder layers for a recurrent
token-by-token prediction process. It takes whole text documents as input and
sequentially outputs characters, as well as logical layout tokens. Contrary to
the existing segmentation-based approaches, the model is trained without using
any segmentation label. We achieve competitive results on the READ dataset at
page level, as well as double-page level with a CER of 3.53% and 3.69%,
respectively. We also provide results for the RIMES dataset at page level,
reaching 4.54% of CER.
We provide all source code and pre-trained model weights at
https://github.com/FactoDeepLearning/DAN.
- Abstract(参考訳): 制約のない手書き文書認識は、コンピュータビジョンの課題である。
伝統的に、行のセグメンテーションとテキストのライン認識を組み合わせた2段階のアプローチで処理される。
本稿では,手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャであるDocument Attention Networkを提案する。
テキスト認識に加えて、モデルはxmlのような方法で開始タグと終了タグを使用してテキスト部分のラベル付けを訓練される。
このモデルは、特徴抽出のためのFCNエンコーダと、繰り返しトークン・バイ・トークン予測プロセスのためのトランスフォーマー・デコーダ層からなる。
テキスト文書全体を入力として、論理的なレイアウトトークンだけでなく、文字を逐次出力する。
既存のセグメンテーションベースのアプローチとは対照的に、モデルはセグメンテーションラベルを使わずにトレーニングされる。
ページレベルでのリードデータセットと、cerが3.53%と3.69%のダブルページレベルでの競合結果を得る。
RIMESデータセットのページレベルでの結果も提供し、CERの4.54%に達しました。
私たちは、https://github.com/FactoDeepLearning/DANで、すべてのソースコードと事前訓練されたモデルウェイトを提供します。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。
私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文 参考訳(メタデータ) (2023-07-15T21:49:22Z) - Towards End-to-end Handwritten Document Recognition [0.0]
手書き文字認識は、その多くの応用のために過去数十年にわたって広く研究されてきた。
本稿では,文書全体の手書きテキスト認識をエンドツーエンドで行うことで,これらの課題に対処することを提案する。
RIMES 2011, IAM, READ 2016 データセットの段落レベルでの最先端結果に到達し, これらのデータセットのラインレベル状態よりも優れていた。
論文 参考訳(メタデータ) (2022-09-30T10:31:22Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - SPAN: a Simple Predict & Align Network for Handwritten Paragraph
Recognition [2.277447144331876]
段落レベルでOCRを実行する終端から終端までの再帰のない完全畳み込みネットワークを提案する。
このフレームワークは、分離された行の認識に使用されるのと同じくらいシンプルで、3つの一般的なデータセットで競合する結果が得られる。
論文 参考訳(メタデータ) (2021-02-17T13:12:45Z) - End-to-end Handwritten Paragraph Text Recognition Using a Vertical
Attention Network [2.277447144331876]
本研究では,ハイブリッドアテンションを用いた統一型エンドツーエンドモデルを提案する。
3つの一般的なデータセット上で,文字誤り率を行と段落レベルで達成する。
論文 参考訳(メタデータ) (2020-12-07T17:31:20Z) - OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page
Text Recognition by learning to unfold [6.09170287691728]
セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。
我々は、CTCで訓練された完全畳み込み単行文字認識装置を拡張可能な、新しいシンプルなニューラルネットワークモジュール、textbfOrigamiNetを提案する。
IAM と ICDAR 2017 の HTR ベンチマークでは,手書き文字認識の精度が他のすべての手法を上回り,最先端の文字誤り率を実現している。
論文 参考訳(メタデータ) (2020-06-12T22:18:02Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。