論文の概要: DANIEL: A fast Document Attention Network for Information Extraction and Labelling of handwritten documents
- arxiv url: http://arxiv.org/abs/2407.09103v1
- Date: Fri, 12 Jul 2024 09:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:07:20.475684
- Title: DANIEL: A fast Document Attention Network for Information Extraction and Labelling of handwritten documents
- Title(参考訳): DANIEL:手書き文書の情報抽出・ラベリングのための高速文書注意ネットワーク
- Authors: Thomas Constum, Pierrick Tranouez, Thierry Paquet,
- Abstract要約: 手書き文書理解のための完全なエンドツーエンドアーキテクチャであるDANIEL(Document Attention Network for Information extract and Labelling)を紹介する。
DANIELは全ページ文書上でレイアウト認識、手書き認識、名前付きエンティティ認識を行う。
複数の言語、レイアウト、タスクを同時に学習できる。
- 参考スコア(独自算出の注目度): 4.298545628576284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information extraction from handwritten documents involves traditionally three distinct steps: Document Layout Analysis, Handwritten Text Recognition, and Named Entity Recognition. Recent approaches have attempted to integrate these steps into a single process using fully end-to-end architectures. Despite this, these integrated approaches have not yet matched the performance of language models, when applied to information extraction in plain text. In this paper, we introduce DANIEL (Document Attention Network for Information Extraction and Labelling), a fully end-to-end architecture integrating a language model and designed for comprehensive handwritten document understanding. DANIEL performs layout recognition, handwriting recognition, and named entity recognition on full-page documents. Moreover, it can simultaneously learn across multiple languages, layouts, and tasks. For named entity recognition, the ontology to be applied can be specified via the input prompt. The architecture employs a convolutional encoder capable of processing images of any size without resizing, paired with an autoregressive decoder based on a transformer-based language model. DANIEL achieves competitive results on four datasets, including a new state-of-the-art performance on RIMES 2009 and M-POPP for Handwriting Text Recognition, and IAM NER for Named Entity Recognition. Furthermore, DANIEL is much faster than existing approaches. We provide the source code and the weights of the trained models at \url{https://github.com/Shulk97/daniel}.
- Abstract(参考訳): 手書き文書からの情報抽出には,従来,文書レイアウト解析,手書きテキスト認識,名前付きエンティティ認識の3つのステップがある。
最近のアプローチでは、これらのステップを完全なエンドツーエンドアーキテクチャを使って単一のプロセスに統合しようと試みている。
それにもかかわらず、これらの統合されたアプローチは、プレーンテキストにおける情報抽出に適用した場合、言語モデルの性能とまだ一致していない。
本稿では,DANIEL(Document Attention Network for Information extract and Labelling)について紹介する。
DANIELは全ページ文書上でレイアウト認識、手書き認識、名前付きエンティティ認識を行う。
さらに、複数の言語、レイアウト、タスクを同時に学習できる。
名前付きエンティティ認識では、オントロジーを入力プロンプトを介して指定することができる。
このアーキテクチャでは、任意のサイズの画像をサイズ変更せずに処理できる畳み込みエンコーダを採用し、トランスフォーマーベースの言語モデルに基づく自己回帰デコーダとペアリングする。
DANIELは、RIMES 2009における新しい最先端のパフォーマンス、手書き文字認識のためのM-POPP、名前付きエンティティ認識のためのIAM NERを含む、4つのデータセットで競合する結果を達成している。
さらに、DANIELは既存のアプローチよりもはるかに高速です。
トレーニングされたモデルのソースコードと重みは、 \url{https://github.com/Shulk97/daniel} で提供します。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Callico: a Versatile Open-Source Document Image Annotation Platform [3.306544219329259]
CallicoはWebベースのオープンソースプラットフォームで、文書認識プロジェクトのアノテーションプロセスを簡単にするように設計されている。
このプラットフォームは、オープンソース開発へのコミットメントによって、多彩な機能を備えたコラボレーティブアノテーションをサポートしている。
例としては、ベルフォート市立登録簿の転写、フランス第二次世界大戦の捕虜のICRCへの索引付け、ソックフェイスプロジェクトの国勢調査リストからの個人情報の抽出などがある。
論文 参考訳(メタデータ) (2024-05-02T08:03:18Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。