論文の概要: PPN: Parallel Pointer-based Network for Key Information Extraction with
Complex Layouts
- arxiv url: http://arxiv.org/abs/2307.10551v1
- Date: Thu, 20 Jul 2023 03:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:59:44.007281
- Title: PPN: Parallel Pointer-based Network for Key Information Extraction with
Complex Layouts
- Title(参考訳): PPN:複合レイアウトを用いた鍵情報抽出のための並列ポインタベースネットワーク
- Authors: Kaiwen Wei, Jie Yao, Jingyuan Zhang, Yangyang Kang, Fubang Zhao,
Yating Zhang, Changlong Sun, Xin Jin, Xin Zhang
- Abstract要約: キー情報抽出は、ドキュメントから構造化された値セマンティックエンティティを抽出することを目的とした課題である。
既存の手法は2段階のパイプライン戦略に従っており、エラー伝搬問題につながる可能性がある。
ゼロショットおよび少数ショットシナリオに適用可能なエンドツーエンドモデルであるParallel Pointer-based Network (PPN)を紹介する。
- 参考スコア(独自算出の注目度): 29.73609439825548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key Information Extraction (KIE) is a challenging multimodal task that aims
to extract structured value semantic entities from visually rich documents.
Although significant progress has been made, there are still two major
challenges that need to be addressed. Firstly, the layout of existing datasets
is relatively fixed and limited in the number of semantic entity categories,
creating a significant gap between these datasets and the complex real-world
scenarios. Secondly, existing methods follow a two-stage pipeline strategy,
which may lead to the error propagation problem. Additionally, they are
difficult to apply in situations where unseen semantic entity categories
emerge. To address the first challenge, we propose a new large-scale
human-annotated dataset named Complex Layout form for key information
EXtraction (CLEX), which consists of 5,860 images with 1,162 semantic entity
categories. To solve the second challenge, we introduce Parallel Pointer-based
Network (PPN), an end-to-end model that can be applied in zero-shot and
few-shot scenarios. PPN leverages the implicit clues between semantic entities
to assist extracting, and its parallel extraction mechanism allows it to
extract multiple results simultaneously and efficiently. Experiments on the
CLEX dataset demonstrate that PPN outperforms existing state-of-the-art methods
while also offering a much faster inference speed.
- Abstract(参考訳): キー情報抽出(KIE)は、視覚的にリッチなドキュメントから構造化された値の意味的エンティティを抽出することを目的とした、挑戦的なマルチモーダルタスクである。
重要な進展はありますが、対処すべき大きな課題は2つあります。
まず、既存のデータセットのレイアウトが比較的固定され、セマンティックエンティティのカテゴリの数に制限されるため、これらのデータセットと複雑な実世界のシナリオの間に大きなギャップが生じる。
第二に、既存の手法は2段階のパイプライン戦略に従い、エラー伝播問題を引き起こす可能性がある。
さらに、見当たらない意味的エンティティカテゴリが出現する状況では、適用が難しい。
キー情報抽出のための複合レイアウト形式 (clex) と呼ばれる, 意味的エンティティカテゴリ1,162の5,860画像からなる, 新たな大規模ヒューマンアノテートデータセットを提案する。
第2の課題を解決するために,ゼロショットおよび少数ショットシナリオに適用可能なエンドツーエンドモデルであるParallel Pointer-based Network (PPN)を導入する。
PPNはセマンティックエンティティ間の暗黙の手がかりを利用して抽出を支援し、その並列抽出機構により複数の結果を同時に効率的に抽出することができる。
CLEXデータセットの実験では、PPNは既存の最先端メソッドよりも優れており、推論速度もはるかに高速である。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - EnriCo: Enriched Representation and Globally Constrained Inference for Entity and Relation Extraction [3.579132482505273]
結合実体と関係抽出は、特に知識グラフの構築において、様々な応用において重要な役割を担っている。
既存のアプローチはしばしば、表現の豊かさと出力構造におけるコヒーレンスという2つの重要な側面に欠ける。
本研究では,これらの欠点を緩和するEnriCoを紹介する。
論文 参考訳(メタデータ) (2024-04-18T20:15:48Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction [28.205723817300576]
ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
本稿では,統一パイプラインで文書ペア抽出を行う新しいフレームワークであるPEneoを紹介する。
論文 参考訳(メタデータ) (2024-01-07T12:48:07Z) - Efficient and Effective Deep Multi-view Subspace Clustering [9.6753782215283]
E$2$MVSC(Efficient and Effective Deep Multi-View Subspace Clustering)と呼ばれる新しいディープフレームワークを提案する。
パラメータ化されたFC層の代わりに、より計算効率のよいサンプル数からネットワークパラメータスケールを分離するRelation-Metric Netを設計する。
E$2$MVSCは既存のメソッドに匹敵する結果を出し、様々なタイプのマルチビューデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-15T03:08:25Z) - A Unified One-Step Solution for Aspect Sentiment Quad Prediction [3.428123050377681]
アスペクトベースの感情分析において、アスペクト感情クワッド予測(ASQP)は難しいが重要なサブタスクである。
我々はASQPのための2つの新しいデータセットをリリースし、このデータセットには、より大きなサイズ、サンプルあたりの単語数、より高密度の2つの特徴が含まれている。
そこで我々は,ASQPを統一したワンステップソリューションであるOne-ASQPを提案し,アスペクトカテゴリを検出し,アスペクト-オピニオン-感覚三重項を同時に同定する。
論文 参考訳(メタデータ) (2023-06-07T05:00:01Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Cross-Supervised Joint-Event-Extraction with Heterogeneous Information
Networks [61.950353376870154]
Joint-event- Extractは、トリガとエンティティのタグからなるタグセットを備えたシーケンスからシーケンスまでのラベリングタスクである。
トリガやエンティティの抽出を交互に監督するクロススーパーバイザードメカニズム(CSM)を提案する。
我々の手法は、エンティティとトリガー抽出の両方において最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-13T11:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。