Fugu-MT 論文翻訳(概要): Spatial Dependency Parsing for Semi-Structured Document Information Extraction

論文の概要: Spatial Dependency Parsing for Semi-Structured Document Information Extraction

arxiv url: http://arxiv.org/abs/2005.00642v3
Date: Thu, 1 Jul 2021 08:32:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 23:00:25.577487
Title: Spatial Dependency Parsing for Semi-Structured Document Information Extraction
Title（参考訳）: 半構造化文書情報抽出のための空間依存解析
Authors: Wonseok Hwang, Jinyeong Yim, Seunghyun Park, Sohee Yang, Minjoon Seo
Abstract要約: 本研究では,文書内の複雑な関係と任意の数の情報層をエンドツーエンドにモデル化するSPADE(SPA Dependency)を提案する。我々はレシート、名刺、フォーム、請求書など、さまざまな種類の文書で評価する。
参考スコア（独自算出の注目度）: 29.231908055394808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Information Extraction (IE) for semi-structured document images is often approached as a sequence tagging problem by classifying each recognized input token into one of the IOB (Inside, Outside, and Beginning) categories. However, such problem setup has two inherent limitations that (1) it cannot easily handle complex spatial relationships and (2) it is not suitable for highly structured information, which are nevertheless frequently observed in real-world document images. To tackle these issues, we first formulate the IE task as spatial dependency parsing problem that focuses on the relationship among text tokens in the documents. Under this setup, we then propose SPADE (SPAtial DEpendency parser) that models highly complex spatial relationships and an arbitrary number of information layers in the documents in an end-to-end manner. We evaluate it on various kinds of documents such as receipts, name cards, forms, and invoices, and show that it achieves a similar or better performance compared to strong baselines including BERT-based IOB taggger.
Abstract（参考訳）: 半構造化文書画像の情報抽出(ie)は、認識された各入力トークンをiobの1つに分類することにより、シーケンスタグ付け問題としてアプローチされることが多い。しかし,このような問題には,(1)複雑な空間関係を容易に処理できない,(2)実世界の文書画像で頻繁に見られる高度に構造化された情報には適さないという2つの固有の制約がある。これらの問題に取り組むため、まず、文書中のテキストトークン間の関係に焦点を当てた空間依存解析問題としてieタスクを定式化する。この設定下では,ドキュメント内の高度に複雑な空間的関係と任意の数の情報層をエンドツーエンドでモデル化するspade(spatial dependency parser)を提案する。我々は、レシート、名刺、フォーム、請求書など様々な種類の文書で評価し、BERTベースのIOBタグラなどの強力なベースラインと比較して、同等または優れたパフォーマンスが得られることを示す。

関連論文リスト

MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-26T14:48:49Z)
DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting [3.657237256134889]
実世界のアプリケーションにおける文書理解には、複数の文書を縫合した異種多ページの文書パケットを処理する必要があることが多い。本稿では,最初の包括的なベンチマークデータセットであるDocSplitと,大規模言語モデルの文書パケット分割機能を評価するための新たな評価指標を提案する。このベンチマークは、注文外ページ、インターリーブされたドキュメント、明確な区切りのないドキュメントなど、現実世界の課題に対処する。
論文参考訳（メタデータ） (2026-02-17T19:17:55Z)
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。 MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。 MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文参考訳（メタデータ） (2025-07-25T03:58:07Z)
Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
S2 Chunking: A Hybrid Framework for Document Segmentation Through Integrated Spatial and Semantic Analysis [0.0]
文書チャンキングは自然言語処理(NLP)において重要な課題である本稿では,レイアウト構造,意味解析,空間関係を組み合わせた新しいハイブリッド手法を提案する。実験の結果、このアプローチは従来の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-08T09:06:29Z)
BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations [2.9798896492745537]
文書質問回答(QA)のための統合データセットを提案する。情報抽出(IE)などの既存の文書AIタスクを質問応答タスクに再構成する。一方、全文書のOCRを公開し、文書画像中の回答の正確な位置をバウンディングボックスとして含む。
論文参考訳（メタデータ） (2025-01-06T21:46:22Z)
Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文参考訳（メタデータ） (2024-10-26T03:07:22Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文参考訳（メタデータ） (2024-02-21T16:22:21Z)
On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。 FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-01T17:51:43Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
SPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search [12.244685291395093]
eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
論文参考訳（メタデータ） (2023-08-15T11:45:34Z)
Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文参考訳（メタデータ） (2023-03-01T18:26:14Z)
SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文参考訳（メタデータ） (2020-05-01T17:30:10Z)
Kleister: A novel task for Information Extraction involving Long Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。 NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文参考訳（メタデータ） (2020-03-04T22:45:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。