論文の概要: Enhancing Document Information Analysis with Multi-Task Pre-training: A
Robust Approach for Information Extraction in Visually-Rich Documents
- arxiv url: http://arxiv.org/abs/2310.16527v1
- Date: Wed, 25 Oct 2023 10:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:23:39.701551
- Title: Enhancing Document Information Analysis with Multi-Task Pre-training: A
Robust Approach for Information Extraction in Visually-Rich Documents
- Title(参考訳): マルチタスク事前学習による文書情報分析の強化:ビジュアルリッチ文書におけるロバストな情報抽出手法
- Authors: Tofik Ali and Partha Pratim Roy
- Abstract要約: モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。
提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
- 参考スコア(独自算出の注目度): 8.49076413640561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a deep learning model tailored for document information
analysis, emphasizing document classification, entity relation extraction, and
document visual question answering. The proposed model leverages
transformer-based models to encode all the information present in a document
image, including textual, visual, and layout information. The model is
pre-trained and subsequently fine-tuned for various document image analysis
tasks. The proposed model incorporates three additional tasks during the
pre-training phase, including reading order identification of different layout
segments in a document image, layout segments categorization as per PubLayNet,
and generation of the text sequence within a given layout segment (text block).
The model also incorporates a collective pre-training scheme where losses of
all the tasks under consideration, including pre-training and fine-tuning tasks
with all datasets, are considered. Additional encoder and decoder blocks are
added to the RoBERTa network to generate results for all tasks. The proposed
model achieved impressive results across all tasks, with an accuracy of 95.87%
on the RVL-CDIP dataset for document classification, F1 scores of 0.9306,
0.9804, 0.9794, and 0.8742 on the FUNSD, CORD, SROIE, and Kleister-NDA datasets
respectively for entity relation extraction, and an ANLS score of 0.8468 on the
DocVQA dataset for visual question answering. The results highlight the
effectiveness of the proposed model in understanding and interpreting complex
document layouts and content, making it a promising tool for document analysis
tasks.
- Abstract(参考訳): 本稿では,文書情報分析のための深層学習モデルを提案し,文書分類,エンティティ関係抽出,文書の視覚的質問応答を強調する。
提案モデルでは,テキスト情報,ビジュアル情報,レイアウト情報など,文書画像に存在するすべての情報をトランスフォーマティブモデルを用いてエンコードする。
このモデルは事前学習され、その後様々な文書画像分析タスクのために微調整される。
提案モデルでは,文書画像中の異なるレイアウトセグメントの読み込み順序の識別,PubLayNetによるレイアウトセグメントの分類,所定のレイアウトセグメント(テキストブロック)内でのテキストシーケンスの生成など,事前学習段階の3つのタスクが組み込まれている。
このモデルは、すべてのデータセットで事前トレーニングや微調整を含む、検討中のすべてのタスクの損失が考慮される、集合的事前トレーニングスキームも組み込んでいる。
追加のエンコーダとデコーダブロックがRoBERTaネットワークに追加され、すべてのタスクの結果が生成される。
提案モデルは,文書分類のためのRVL-CDIPデータセットで95.87%,FUNSD,CORD,SROIE,Kleister-NDAデータセットで0.9306,0.9804,0.9794,0.8742,DocVQAデータセットで0.8468の精度で,すべてのタスクにおいて顕著な結果を得た。
その結果,複雑な文書レイアウトや内容の理解と解釈における提案モデルの有効性が強調され,文書解析タスクに有望なツールとなった。
関連論文リスト
- DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。
各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。
本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文 参考訳(メタデータ) (2024-05-20T03:34:24Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。
画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。
本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文 参考訳(メタデータ) (2024-03-21T09:25:24Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Unveiling Document Structures with YOLOv5 Layout Detection [0.0]
本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。
主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出できる自律システムを作ることである。
論文 参考訳(メタデータ) (2023-09-29T07:45:10Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。