論文の概要: Spatial Dependency Parsing for Semi-Structured Document Information
Extraction
- arxiv url: http://arxiv.org/abs/2005.00642v3
- Date: Thu, 1 Jul 2021 08:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:00:25.577487
- Title: Spatial Dependency Parsing for Semi-Structured Document Information
Extraction
- Title(参考訳): 半構造化文書情報抽出のための空間依存解析
- Authors: Wonseok Hwang, Jinyeong Yim, Seunghyun Park, Sohee Yang, Minjoon Seo
- Abstract要約: 本研究では,文書内の複雑な関係と任意の数の情報層をエンドツーエンドにモデル化するSPADE(SPA Dependency)を提案する。
我々はレシート、名刺、フォーム、請求書など、さまざまな種類の文書で評価する。
- 参考スコア(独自算出の注目度): 29.231908055394808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information Extraction (IE) for semi-structured document images is often
approached as a sequence tagging problem by classifying each recognized input
token into one of the IOB (Inside, Outside, and Beginning) categories. However,
such problem setup has two inherent limitations that (1) it cannot easily
handle complex spatial relationships and (2) it is not suitable for highly
structured information, which are nevertheless frequently observed in
real-world document images. To tackle these issues, we first formulate the IE
task as spatial dependency parsing problem that focuses on the relationship
among text tokens in the documents. Under this setup, we then propose SPADE
(SPAtial DEpendency parser) that models highly complex spatial relationships
and an arbitrary number of information layers in the documents in an end-to-end
manner. We evaluate it on various kinds of documents such as receipts, name
cards, forms, and invoices, and show that it achieves a similar or better
performance compared to strong baselines including BERT-based IOB taggger.
- Abstract(参考訳): 半構造化文書画像の情報抽出(ie)は、認識された各入力トークンをiobの1つに分類することにより、シーケンスタグ付け問題としてアプローチされることが多い。
しかし,このような問題には,(1)複雑な空間関係を容易に処理できない,(2)実世界の文書画像で頻繁に見られる高度に構造化された情報には適さないという2つの固有の制約がある。
これらの問題に取り組むため、まず、文書中のテキストトークン間の関係に焦点を当てた空間依存解析問題としてieタスクを定式化する。
この設定下では,ドキュメント内の高度に複雑な空間的関係と任意の数の情報層をエンドツーエンドでモデル化するspade(spatial dependency parser)を提案する。
我々は、レシート、名刺、フォーム、請求書など様々な種類の文書で評価し、BERTベースのIOBタグラなどの強力なベースラインと比較して、同等または優れたパフォーマンスが得られることを示す。
関連論文リスト
- Leveraging Collection-Wide Similarities for Unsupervised Document
Structure Extraction [69.68042613919447]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - SPM: Structured Pretraining and Matching Architectures for Relevance
Modeling in Meituan Search [12.244685291395093]
eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。
本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。
このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
論文 参考訳(メタデータ) (2023-08-15T11:45:34Z) - DocTr: Document Transformer for Structured Information Extraction in
Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。
既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。
我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文 参考訳(メタデータ) (2023-07-16T02:59:30Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。