論文の概要: Spatial Dependency Parsing for Semi-Structured Document Information
Extraction
- arxiv url: http://arxiv.org/abs/2005.00642v3
- Date: Thu, 1 Jul 2021 08:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:00:25.577487
- Title: Spatial Dependency Parsing for Semi-Structured Document Information
Extraction
- Title(参考訳): 半構造化文書情報抽出のための空間依存解析
- Authors: Wonseok Hwang, Jinyeong Yim, Seunghyun Park, Sohee Yang, Minjoon Seo
- Abstract要約: 本研究では,文書内の複雑な関係と任意の数の情報層をエンドツーエンドにモデル化するSPADE(SPA Dependency)を提案する。
我々はレシート、名刺、フォーム、請求書など、さまざまな種類の文書で評価する。
- 参考スコア(独自算出の注目度): 29.231908055394808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information Extraction (IE) for semi-structured document images is often
approached as a sequence tagging problem by classifying each recognized input
token into one of the IOB (Inside, Outside, and Beginning) categories. However,
such problem setup has two inherent limitations that (1) it cannot easily
handle complex spatial relationships and (2) it is not suitable for highly
structured information, which are nevertheless frequently observed in
real-world document images. To tackle these issues, we first formulate the IE
task as spatial dependency parsing problem that focuses on the relationship
among text tokens in the documents. Under this setup, we then propose SPADE
(SPAtial DEpendency parser) that models highly complex spatial relationships
and an arbitrary number of information layers in the documents in an end-to-end
manner. We evaluate it on various kinds of documents such as receipts, name
cards, forms, and invoices, and show that it achieves a similar or better
performance compared to strong baselines including BERT-based IOB taggger.
- Abstract(参考訳): 半構造化文書画像の情報抽出(ie)は、認識された各入力トークンをiobの1つに分類することにより、シーケンスタグ付け問題としてアプローチされることが多い。
しかし,このような問題には,(1)複雑な空間関係を容易に処理できない,(2)実世界の文書画像で頻繁に見られる高度に構造化された情報には適さないという2つの固有の制約がある。
これらの問題に取り組むため、まず、文書中のテキストトークン間の関係に焦点を当てた空間依存解析問題としてieタスクを定式化する。
この設定下では,ドキュメント内の高度に複雑な空間的関係と任意の数の情報層をエンドツーエンドでモデル化するspade(spatial dependency parser)を提案する。
我々は、レシート、名刺、フォーム、請求書など様々な種類の文書で評価し、BERTベースのIOBタグラなどの強力なベースラインと比較して、同等または優れたパフォーマンスが得られることを示す。
関連論文リスト
- Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。
本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。
提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-26T03:07:22Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - SPM: Structured Pretraining and Matching Architectures for Relevance
Modeling in Meituan Search [12.244685291395093]
eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。
本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。
このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
論文 参考訳(メタデータ) (2023-08-15T11:45:34Z) - Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。
これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。
この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:26:14Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。