論文の概要: PPN: Parallel Pointer-based Network for Key Information Extraction with
Complex Layouts
- arxiv url: http://arxiv.org/abs/2307.10551v1
- Date: Thu, 20 Jul 2023 03:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:59:44.007281
- Title: PPN: Parallel Pointer-based Network for Key Information Extraction with
Complex Layouts
- Title(参考訳): PPN:複合レイアウトを用いた鍵情報抽出のための並列ポインタベースネットワーク
- Authors: Kaiwen Wei, Jie Yao, Jingyuan Zhang, Yangyang Kang, Fubang Zhao,
Yating Zhang, Changlong Sun, Xin Jin, Xin Zhang
- Abstract要約: キー情報抽出は、ドキュメントから構造化された値セマンティックエンティティを抽出することを目的とした課題である。
既存の手法は2段階のパイプライン戦略に従っており、エラー伝搬問題につながる可能性がある。
ゼロショットおよび少数ショットシナリオに適用可能なエンドツーエンドモデルであるParallel Pointer-based Network (PPN)を紹介する。
- 参考スコア(独自算出の注目度): 29.73609439825548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key Information Extraction (KIE) is a challenging multimodal task that aims
to extract structured value semantic entities from visually rich documents.
Although significant progress has been made, there are still two major
challenges that need to be addressed. Firstly, the layout of existing datasets
is relatively fixed and limited in the number of semantic entity categories,
creating a significant gap between these datasets and the complex real-world
scenarios. Secondly, existing methods follow a two-stage pipeline strategy,
which may lead to the error propagation problem. Additionally, they are
difficult to apply in situations where unseen semantic entity categories
emerge. To address the first challenge, we propose a new large-scale
human-annotated dataset named Complex Layout form for key information
EXtraction (CLEX), which consists of 5,860 images with 1,162 semantic entity
categories. To solve the second challenge, we introduce Parallel Pointer-based
Network (PPN), an end-to-end model that can be applied in zero-shot and
few-shot scenarios. PPN leverages the implicit clues between semantic entities
to assist extracting, and its parallel extraction mechanism allows it to
extract multiple results simultaneously and efficiently. Experiments on the
CLEX dataset demonstrate that PPN outperforms existing state-of-the-art methods
while also offering a much faster inference speed.
- Abstract(参考訳): キー情報抽出(KIE)は、視覚的にリッチなドキュメントから構造化された値の意味的エンティティを抽出することを目的とした、挑戦的なマルチモーダルタスクである。
重要な進展はありますが、対処すべき大きな課題は2つあります。
まず、既存のデータセットのレイアウトが比較的固定され、セマンティックエンティティのカテゴリの数に制限されるため、これらのデータセットと複雑な実世界のシナリオの間に大きなギャップが生じる。
第二に、既存の手法は2段階のパイプライン戦略に従い、エラー伝播問題を引き起こす可能性がある。
さらに、見当たらない意味的エンティティカテゴリが出現する状況では、適用が難しい。
キー情報抽出のための複合レイアウト形式 (clex) と呼ばれる, 意味的エンティティカテゴリ1,162の5,860画像からなる, 新たな大規模ヒューマンアノテートデータセットを提案する。
第2の課題を解決するために,ゼロショットおよび少数ショットシナリオに適用可能なエンドツーエンドモデルであるParallel Pointer-based Network (PPN)を導入する。
PPNはセマンティックエンティティ間の暗黙の手がかりを利用して抽出を支援し、その並列抽出機構により複数の結果を同時に効率的に抽出することができる。
CLEXデータセットの実験では、PPNは既存の最先端メソッドよりも優れており、推論速度もはるかに高速である。
関連論文リスト
- EnriCo: Enriched Representation and Globally Constrained Inference for Entity and Relation Extraction [3.579132482505273]
結合実体と関係抽出は、特に知識グラフの構築において、様々な応用において重要な役割を担っている。
既存のアプローチはしばしば、表現の豊かさと出力構造におけるコヒーレンスという2つの重要な側面に欠ける。
本研究では,これらの欠点を緩和するEnriCoを紹介する。
論文 参考訳(メタデータ) (2024-04-18T20:15:48Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for
End-to-end Document Pair Extraction [29.620120164447737]
ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
本稿では,ライン抽出,ライングルーピング,エンティティリンクという3つの並列サブタスクを組み込んだ,統一パイプラインで文書ペア抽出を行うPEneoについて紹介する。
論文 参考訳(メタデータ) (2024-01-07T12:48:07Z) - Efficient and Effective Deep Multi-view Subspace Clustering [9.6753782215283]
E$2$MVSC(Efficient and Effective Deep Multi-View Subspace Clustering)と呼ばれる新しいディープフレームワークを提案する。
パラメータ化されたFC層の代わりに、より計算効率のよいサンプル数からネットワークパラメータスケールを分離するRelation-Metric Netを設計する。
E$2$MVSCは既存のメソッドに匹敵する結果を出し、様々なタイプのマルチビューデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-15T03:08:25Z) - A Unified One-Step Solution for Aspect Sentiment Quad Prediction [3.428123050377681]
アスペクトベースの感情分析において、アスペクト感情クワッド予測(ASQP)は難しいが重要なサブタスクである。
我々はASQPのための2つの新しいデータセットをリリースし、このデータセットには、より大きなサイズ、サンプルあたりの単語数、より高密度の2つの特徴が含まれている。
そこで我々は,ASQPを統一したワンステップソリューションであるOne-ASQPを提案し,アスペクトカテゴリを検出し,アスペクト-オピニオン-感覚三重項を同時に同定する。
論文 参考訳(メタデータ) (2023-06-07T05:00:01Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Cross-Supervised Joint-Event-Extraction with Heterogeneous Information
Networks [61.950353376870154]
Joint-event- Extractは、トリガとエンティティのタグからなるタグセットを備えたシーケンスからシーケンスまでのラベリングタスクである。
トリガやエンティティの抽出を交互に監督するクロススーパーバイザードメカニズム(CSM)を提案する。
我々の手法は、エンティティとトリガー抽出の両方において最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-13T11:51:17Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。