論文の概要: Faster DAN: Multi-target Queries with Document Positional Encoding for
End-to-end Handwritten Document Recognition
- arxiv url: http://arxiv.org/abs/2301.10593v1
- Date: Wed, 25 Jan 2023 13:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 15:11:42.380484
- Title: Faster DAN: Multi-target Queries with Document Positional Encoding for
End-to-end Handwritten Document Recognition
- Title(参考訳): Faster DAN: エンドツーエンド手書き文書認識のための文書位置エンコーディングによるマルチターゲットクエリ
- Authors: Denis Coquenet and Cl\'ement Chatelain and Thierry Paquet
- Abstract要約: より高速なDANは、予測時に認識プロセスを高速化するための2段階の戦略である。
RIMES 2009、READ 2016、MAURDORデータセットの1ページと2ページのイメージ全体の少なくとも4倍高速である。
- 参考スコア(独自算出の注目度): 1.7875811547963403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in handwritten text recognition enabled to recognize whole
documents in an end-to-end way: the Document Attention Network (DAN) recognizes
the characters one after the other through an attention-based prediction
process until reaching the end of the document. However, this autoregressive
process leads to inference that cannot benefit from any parallelization
optimization. In this paper, we propose Faster DAN, a two-step strategy to
speed up the recognition process at prediction time: the model predicts the
first character of each text line in the document, and then completes all the
text lines in parallel through multi-target queries and a specific document
positional encoding scheme. Faster DAN reaches competitive results compared to
standard DAN, while being at least 4 times faster on whole single-page and
double-page images of the RIMES 2009, READ 2016 and MAURDOR datasets. Source
code and trained model weights are available at
https://github.com/FactoDeepLearning/FasterDAN.
- Abstract(参考訳): 文書注意ネットワーク(DAN)は、文書の最後に到達するまで、注意に基づく予測プロセスを通じて、文字を次々と認識する。
しかし、この自己回帰プロセスは並列化最適化の恩恵を受けない推論につながる。
本稿では,予測時の認識プロセスを高速化する2段階の手法であるfaster danを提案する。このモデルでは,文書中の各テキスト行の最初の文字を予測し,マルチターゲットクエリと特定の文書位置符号化方式により,すべてのテキスト行を並列に補完する。
より高速なDANは、標準のDANと比較して競争的な結果に達する一方で、RIMES 2009とREAD 2016とMAURDORデータセットのシングルページとダブルページのイメージ全体の少なくとも4倍高速である。
ソースコードとトレーニングされたモデルウェイトはhttps://github.com/FactoDeepLearning/FasterDAN.comで入手できる。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Planning Ahead in Generative Retrieval: Guiding Autoregressive Generation through Simultaneous Decoding [23.061797784952855]
本稿では,文書識別子の自動生成を支援する新しい最適化および復号化手法であるPAGを紹介する。
MSMARCO と TREC Deep Learning Track のデータによる実験の結果,PAG は最先端の生成的検索モデルよりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-22T21:50:01Z) - REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking [11.374031643273941]
REXELは文書レベルcIE(DocIE)の共同作業のための高効率かつ高精度なモデルである
同様の環境では、競合する既存のアプローチよりも平均11倍高速です。
速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。
論文 参考訳(メタデータ) (2024-04-19T11:04:27Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - Towards End-to-end Handwritten Document Recognition [0.0]
手書き文字認識は、その多くの応用のために過去数十年にわたって広く研究されてきた。
本稿では,文書全体の手書きテキスト認識をエンドツーエンドで行うことで,これらの課題に対処することを提案する。
RIMES 2011, IAM, READ 2016 データセットの段落レベルでの最先端結果に到達し, これらのデータセットのラインレベル状態よりも優れていた。
論文 参考訳(メタデータ) (2022-09-30T10:31:22Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - SDR: Efficient Neural Re-ranking using Succinct Document Representation [4.9278175139681215]
本稿では, 強調圧縮した中間文書表現を演算する文書表現方式を提案する。
提案手法は効率が良く, 同一品質の圧縮速度が4x-11.6倍向上した。
論文 参考訳(メタデータ) (2021-10-03T07:43:16Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。