論文の概要: Spatial Dual-Modality Graph Reasoning for Key Information Extraction
- arxiv url: http://arxiv.org/abs/2103.14470v1
- Date: Fri, 26 Mar 2021 13:46:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:41:38.864861
- Title: Spatial Dual-Modality Graph Reasoning for Key Information Extraction
- Title(参考訳): 鍵情報抽出のための空間デュアルモーダルグラフ推論
- Authors: Hongbin Sun, Zhanghui Kuang, Xiaoyu Yue, Chenhao Lin and Wayne Zhang
- Abstract要約: 本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
- 参考スコア(独自算出の注目度): 31.04597531115209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key information extraction from document images is of paramount importance in
office automation. Conventional template matching based approaches fail to
generalize well to document images of unseen templates, and are not robust
against text recognition errors. In this paper, we propose an end-to-end
Spatial Dual-Modality Graph Reasoning method (SDMG-R) to extract key
information from unstructured document images. We model document images as
dual-modality graphs, nodes of which encode both the visual and textual
features of detected text regions, and edges of which represent the spatial
relations between neighboring text regions. The key information extraction is
solved by iteratively propagating messages along graph edges and reasoning the
categories of graph nodes. In order to roundly evaluate our proposed method as
well as boost the future research, we release a new dataset named WildReceipt,
which is collected and annotated tailored for the evaluation of key information
extraction from document images of unseen templates in the wild. It contains 25
key information categories, a total of about 69000 text boxes, and is about 2
times larger than the existing public datasets. Extensive experiments validate
that all information including visual features, textual features and spatial
relations can benefit key information extraction. It has been shown that SDMG-R
can effectively extract key information from document images of unseen
templates, and obtain new state-of-the-art results on the recent popular
benchmark SROIE and our WildReceipt. Our code and dataset will be publicly
released.
- Abstract(参考訳): 文書画像からのキー情報抽出は,オフィス自動化において極めて重要である。
従来のテンプレートマッチングベースのアプローチでは、見当たらないテンプレートの画像のドキュメント化がうまく行かず、テキスト認識エラーに対して堅牢ではない。
本稿では,非構造化文書画像からキー情報を抽出するために,エンドツーエンドの空間的デュアルモダリティグラフ推論法(sdmg-r)を提案する。
文書画像は、検出されたテキスト領域の視覚的特徴とテキスト的特徴の両方をエンコードするノードと、隣接するテキスト領域間の空間的関係を表すエッジとしてモデル化する。
グラフエッジに沿ってメッセージを反復的に伝播させ、グラフノードのカテゴリを推論することにより、鍵情報抽出を行う。
提案手法を徹底的に評価し,今後の研究を促進するため,ワイルドレセプト(WildReceipt)という新たなデータセットを作成した。
25のキー情報カテゴリがあり、合計約69000のテキストボックスがあり、既存の公開データセットの約2倍の大きさである。
広範な実験により、視覚的特徴、テキスト的特徴、空間的関係を含む全ての情報が重要な情報抽出に役立つことが検証される。
SDMG-Rは、目に見えないテンプレートの文書画像からキー情報を効果的に抽出し、最近の人気ベンチマークSROIEとWildReceiptで新しい最先端の結果を得ることができることが示されている。
コードとデータセットは公開されます。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - RDU: A Region-based Approach to Form-style Document Understanding [69.29541701576858]
キー情報抽出(KIE)は,フォーム形式の文書から構造化された情報を抽出することを目的としている。
我々は、Rerea-based Understanding Document (RDU) と呼ばれる新しいKIEモデルを開発する。
RDUは文書のテキスト内容と対応する座標を入力として、バウンディングボックスのような領域をローカライズして結果を予測しようとする。
論文 参考訳(メタデータ) (2022-06-14T14:47:48Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。