論文の概要: SIMARA: a database for key-value information extraction from full pages
- arxiv url: http://arxiv.org/abs/2304.13606v1
- Date: Wed, 26 Apr 2023 15:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 13:51:21.893559
- Title: SIMARA: a database for key-value information extraction from full pages
- Title(参考訳): SIMARA:全ページからキー値情報を抽出するデータベース
- Authors: Sol\`ene Tarride and M\'elodie Boillet and Jean-Fran\c{c}ois Moufflet
and Christopher Kermorvant
- Abstract要約: 歴史的手書き文書から情報を取り出すための新しいデータベースを提案する。
コーパスには18世紀から20世紀にかけての6つのシリーズから5,393個のエイズが発見されている。
ヘルプを見つけることは、古いアーカイブを記述するメタデータを含む手書きの文書である。
- 参考スコア(独自算出の注目度): 0.1835211348413763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new database for information extraction from historical
handwritten documents. The corpus includes 5,393 finding aids from six
different series, dating from the 18th-20th centuries. Finding aids are
handwritten documents that contain metadata describing older archives. They are
stored in the National Archives of France and are used by archivists to
identify and find archival documents. Each document is annotated at page-level,
and contains seven fields to retrieve. The localization of each field is not
available in such a way that this dataset encourages research on
segmentation-free systems for information extraction. We propose a model based
on the Transformer architecture trained for end-to-end information extraction
and provide three sets for training, validation and testing, to ensure fair
comparison with future works. The database is freely accessible at
https://zenodo.org/record/7868059.
- Abstract(参考訳): 本稿では,歴史文書から情報を抽出するデータベースを提案する。
コーパスには18世紀から20世紀にかけての6つのシリーズからの5,393個のエイズが含まれている。
aidsの検索は、古いアーカイブを記述するメタデータを含む手書きのドキュメントである。
それらはフランスの国立公文書館に保管されており、アーキビストによってアーカイブ文書の識別と発見に使用されている。
各文書はページレベルで注釈付けされ、検索する7つのフィールドを含む。
各フィールドのローカライゼーションは、このデータセットが情報抽出のためのセグメンテーションフリーシステムの研究を促進するような方法では利用できない。
本稿では,エンド・ツー・エンドの情報抽出のために訓練されたトランスフォーマティブ・アーキテクチャに基づくモデルを提案し,トレーニング,検証,テストのための3つのセットを提供し,今後の作業と公正な比較を行う。
データベースはhttps://zenodo.org/record/7868059で自由にアクセスできる。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - CED: Catalog Extraction from Documents [12.037861186708799]
本稿では,文書をカタログ木に解析するトランジションベースのフレームワークを提案する。
CEDタスクは、非常に長い文書の原文セグメントと情報抽出タスクのギャップを埋める可能性があると考えています。
論文 参考訳(メタデータ) (2023-04-28T07:32:00Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Identifying Documents In-Scope of a Collection from Web Archives [37.34941845795198]
本研究では,機械学習モデルと深層学習モデルの両方と,文書全体や文書の特定部分から抽出した"言葉の袋"(BoW)の特徴について検討する。
評価は3つの異なるWebアーカイブから作成した3つのデータセットに焦点をあてる。
実験の結果,文書の特定の部分のみに焦点をあてたBoW分類器は,全3つのデータセットで比較した手法よりも優れていた。
論文 参考訳(メタデータ) (2020-09-02T16:22:23Z) - A Large Dataset of Historical Japanese Documents with Complex Layouts [5.343406649012619]
HJDatasetは、複雑なレイアウトを持つ日本古文書の大規模なデータセットである。
レイアウト要素アノテーションには7つのタイプがある。
レイアウト要素を抽出する半ルール法を開発し、その結果を人間の検査員が確認する。
論文 参考訳(メタデータ) (2020-04-18T18:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。