論文の概要: RDU: A Region-based Approach to Form-style Document Understanding
- arxiv url: http://arxiv.org/abs/2206.06890v1
- Date: Tue, 14 Jun 2022 14:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 13:25:48.621152
- Title: RDU: A Region-based Approach to Form-style Document Understanding
- Title(参考訳): RDU: 形式的文書理解への地域的アプローチ
- Authors: Fengbin Zhu, Chao Wang, Wenqiang Lei, Ziyang Liu, Tat Seng Chua
- Abstract要約: キー情報抽出(KIE)は,フォーム形式の文書から構造化された情報を抽出することを目的としている。
我々は、Rerea-based Understanding Document (RDU) と呼ばれる新しいKIEモデルを開発する。
RDUは文書のテキスト内容と対応する座標を入力として、バウンディングボックスのような領域をローカライズして結果を予測しようとする。
- 参考スコア(独自算出の注目度): 69.29541701576858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key Information Extraction (KIE) is aimed at extracting structured
information (e.g. key-value pairs) from form-style documents (e.g. invoices),
which makes an important step towards intelligent document understanding.
Previous approaches generally tackle KIE by sequence tagging, which faces
difficulty to process non-flatten sequences, especially for table-text mixed
documents. These approaches also suffer from the trouble of pre-defining a
fixed set of labels for each type of documents, as well as the label imbalance
issue. In this work, we assume Optical Character Recognition (OCR) has been
applied to input documents, and reformulate the KIE task as a region prediction
problem in the two-dimensional (2D) space given a target field. Following this
new setup, we develop a new KIE model named Region-based Document Understanding
(RDU) that takes as input the text content and corresponding coordinates of a
document, and tries to predict the result by localizing a bounding-box-like
region. Our RDU first applies a layout-aware BERT equipped with a soft layout
attention masking and bias mechanism to incorporate layout information into the
representations. Then, a list of candidate regions is generated from the
representations via a Region Proposal Module inspired by computer vision models
widely applied for object detection. Finally, a Region Categorization Module
and a Region Selection Module are adopted to judge whether a proposed region is
valid and select the one with the largest probability from all proposed regions
respectively. Experiments on four types of form-style documents show that our
proposed method can achieve impressive results. In addition, our RDU model can
be trained with different document types seamlessly, which is especially
helpful over low-resource documents.
- Abstract(参考訳): キー情報抽出(KIE)は、フォームスタイルの文書(例えば請求書)から構造化情報(例えば、キーと値のペア)を抽出することを目的としており、インテリジェントな文書理解に向けて重要な一歩を踏み出している。
従来のアプローチでは、特にテーブル-テキスト混合文書では、非フラットなシーケンスを処理するのが困難であるシーケンスタグによってkieに取り組む。
これらのアプローチは、各タイプの文書に対して固定されたラベルセットを事前に定義する問題や、ラベルの不均衡の問題にも悩まされる。
本研究では、入力文書に光学文字認識(OCR)を適用し、対象フィールドに与えられた2次元(2D)空間における領域予測問題としてKIEタスクを再構成する。
本稿では,文書のテキスト内容と対応する座標を入力として取り込んだ領域ベース文書理解(RDU)と呼ばれる新しいKIEモデルを開発し,境界ボックスのような領域をローカライズして結果を予測しようとする。
我々のRDUは、まず、レイアウト情報を表現に組み込むソフトレイアウトアテンションマスキングとバイアス機構を備えたレイアウト対応BERTを適用した。
そして、オブジェクト検出に広く適用されたコンピュータビジョンモデルにインスパイアされた領域提案モジュールを介して、候補領域のリストを生成する。
最後に、領域分類モジュールと領域選択モジュールを採用し、提案領域が有効かどうかを判定し、提案領域全体から最大確率の領域を選択する。
4種類の形式文書を実験した結果,提案手法は印象的な結果を得ることができた。
さらに、我々のRDUモデルは、異なるドキュメントタイプをシームレスにトレーニングすることができます。
関連論文リスト
- Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories [18.323615434182553]
重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
論文 参考訳(メタデータ) (2023-02-17T15:30:44Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。