論文の概要: End-to-end information extraction in handwritten documents: Understanding Paris marriage records from 1880 to 1940
- arxiv url: http://arxiv.org/abs/2404.19329v1
- Date: Tue, 30 Apr 2024 07:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:04:27.111280
- Title: End-to-end information extraction in handwritten documents: Understanding Paris marriage records from 1880 to 1940
- Title(参考訳): 手書き文書におけるエンドツーエンドの情報抽出:1880年から1940年までのパリ結婚記録の理解
- Authors: Thomas Constum, Lucas Preel, Théo Larcher, Pierrick Tranouez, Thierry Paquet, Sandra Brée,
- Abstract要約: 本稿では,全ページのテキスト認識と情報抽出のためのアノテーションを備えたM-POPPデータベースのサブセットであるM-POPPデータセットを紹介する。
本稿では,ページイメージから直接手書き文字認識と情報抽出を行うDANを応用した,完全なエンドツーエンドアーキテクチャを提案する。
本稿では,Esposalles上の全ページ情報抽出のための新しい技術を実現することで,このアーキテクチャの情報抽出機能を紹介する。
- 参考スコア(独自算出の注目度): 3.296046161223931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The EXO-POPP project aims to establish a comprehensive database comprising 300,000 marriage records from Paris and its suburbs, spanning the years 1880 to 1940, which are preserved in over 130,000 scans of double pages. Each marriage record may encompass up to 118 distinct types of information that require extraction from plain text. In this paper, we introduce the M-POPP dataset, a subset of the M-POPP database with annotations for full-page text recognition and information extraction in both handwritten and printed documents, and which is now publicly available. We present a fully end-to-end architecture adapted from the DAN, designed to perform both handwritten text recognition and information extraction directly from page images without the need for explicit segmentation. We showcase the information extraction capabilities of this architecture by achieving a new state of the art for full-page Information Extraction on Esposalles and we use this architecture as a baseline for the M-POPP dataset. We also assess and compare how different encoding strategies for named entities in the text affect the performance of jointly recognizing handwritten text and extracting information, from full pages.
- Abstract(参考訳): EXO-POPPプロジェクトは、1880年から1940年にかけて、パリとその郊外の30万件の結婚記録を含む包括的なデータベースの構築を目指している。
それぞれの結婚記録は、プレーンテキストからの抽出を必要とする118種類の異なる情報を含むことができる。
本稿では,M-POPPデータベースのサブセットであるM-POPPデータセットを紹介する。
本稿では,DANをベースとした完全なエンドツーエンドアーキテクチャを提案する。手書き文字認識とページイメージから直接情報抽出を,明示的なセグメンテーションを必要とせずに行うように設計されている。
本稿では,Esposalles上の全ページ情報抽出のための新しい最先端技術を実現することで,このアーキテクチャの情報抽出能力を実証し,M-POPPデータセットのベースラインとして利用する。
また、テキスト中の名前付きエンティティの異なるエンコーディング戦略が、手書きテキストの認識と情報抽出のパフォーマンスに与える影響をフルページから評価・比較する。
関連論文リスト
- DANIEL: A fast Document Attention Network for Information Extraction and Labelling of handwritten documents [4.298545628576284]
手書き文書理解のための完全なエンドツーエンドアーキテクチャであるDANIEL(Document Attention Network for Information extract and Labelling)を紹介する。
DANIELは全ページ文書上でレイアウト認識、手書き認識、名前付きエンティティ認識を行う。
複数の言語、レイアウト、タスクを同時に学習できる。
論文 参考訳(メタデータ) (2024-07-12T09:09:56Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - WordScape: a Pipeline to extract multilingual, visually rich Documents
with Layout Annotations from Web Crawl Data [13.297444760076406]
本稿では,学際的,多言語的コーパス作成のための新しいパイプラインであるWordScapeを紹介する。
WordScapeはWebから取得したWordドキュメントのオープンXML構造を解析する。
文化的にも言語的にも多様なドキュメントページを提供し、自然な意味構造と高品質なテキストを提供する。
論文 参考訳(メタデータ) (2023-12-15T20:28:31Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - SIMARA: a database for key-value information extraction from full pages [0.1835211348413763]
歴史的手書き文書から情報を取り出すための新しいデータベースを提案する。
コーパスには18世紀から20世紀にかけての6つのシリーズから5,393個のエイズが発見されている。
ヘルプを見つけることは、古いアーカイブを記述するメタデータを含む手書きの文書である。
論文 参考訳(メタデータ) (2023-04-26T15:00:04Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。