論文の概要: PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for
End-to-end Document Pair Extraction
- arxiv url: http://arxiv.org/abs/2401.03472v1
- Date: Sun, 7 Jan 2024 12:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:52:53.484981
- Title: PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for
End-to-end Document Pair Extraction
- Title(参考訳): PEneo: エンドツーエンドドキュメントペア抽出のためのライン抽出、ライングループ化、エンティティリンクの統合
- Authors: Zening Lin, Jiapeng Wang, Teng Li, Wenhui Liao, Dayi Huang, Longfei
Xiong, Lianwen Jin
- Abstract要約: ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
本稿では,ライン抽出,ライングルーピング,エンティティリンクという3つの並列サブタスクを組み込んだ,統一パイプラインで文書ペア抽出を行うPEneoについて紹介する。
- 参考スコア(独自算出の注目度): 29.620120164447737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document pair extraction aims to identify key and value entities as well as
their relationships from visually-rich documents. Most existing methods divide
it into two separate tasks: semantic entity recognition (SER) and relation
extraction (RE). However, simply concatenating SER and RE serially can lead to
severe error propagation, and it fails to handle cases like multi-line entities
in real scenarios. To address these issues, this paper introduces a novel
framework, PEneo (Pair Extraction new decoder option), which performs document
pair extraction in a unified pipeline, incorporating three concurrent
sub-tasks: line extraction, line grouping, and entity linking. This approach
alleviates the error accumulation problem and can handle the case of multi-line
entities. Furthermore, to better evaluate the model's performance and to
facilitate future research on pair extraction, we introduce RFUND, a
re-annotated version of the commonly used FUNSD and XFUND datasets, to make
them more accurate and cover realistic situations. Experiments on various
benchmarks demonstrate PEneo's superiority over previous pipelines, boosting
the performance by a large margin (e.g., 19.89%-22.91% F1 score on RFUND-EN)
when combined with various backbones like LiLT and LayoutLMv3, showing its
effectiveness and generality. Codes and the new annotations will be open to the
public.
- Abstract(参考訳): ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
しかし、単にSERとREを直列に結合すれば、重大なエラーの伝播が起こり、実際のシナリオにおけるマルチラインエンティティのようなケースを処理できない。
そこで本稿では,新しいフレームワークであるpeneo(pair extraction new decoder option)を紹介し,統一パイプラインで文書ペア抽出を行い,行抽出,行グループ化,エンティティリンクという3つの並列サブタスクを組み込む。
このアプローチはエラーの蓄積問題を緩和し、マルチラインエンティティのケースを処理できる。
さらに、モデルの性能をよりよく評価し、ペア抽出の今後の研究を促進するために、一般的なFUNSDとXFUNDデータセットの再注釈版であるRFUNDを導入し、より正確で現実的な状況をカバーする。
様々なベンチマークの実験では、Peneoが以前のパイプラインよりも優れていることが示され、LiLTやLayoutLMv3といった様々なバックボーンと組み合わせることで、大きなマージン(例えばRFUND-ENの19.89%-22.91% F1スコア)で性能が向上した。
コードと新しいアノテーションは一般公開される予定だ。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction [15.246183329778656]
ドキュメントレベルの関係抽出(DocRE)は、構造化されていない文書テキストからエンティティ間の関係を抽出することを目的としている。
これらの課題を克服するために,DocREの新しいモデルであるGEGAを提案する。
我々は、広く使用されている3つのベンチマークデータセット、DocRED、Re-DocRED、Revisit-DocREDでGEGAモデルを評価する。
論文 参考訳(メタデータ) (2024-07-31T07:15:33Z) - REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking [11.374031643273941]
REXELは文書レベルcIE(DocIE)の共同作業のための高効率かつ高精度なモデルである
同様の環境では、競合する既存のアプローチよりも平均11倍高速です。
速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。
論文 参考訳(メタデータ) (2024-04-19T11:04:27Z) - AutoRE: Document-Level Relation Extraction with Large Language Models [27.426703757501507]
我々は、RHF(Relation-Head-Facts)という新しいRE抽出パラダイムを採用した、エンド・ツー・エンドのDocREモデルであるAutoREを紹介する。
既存のアプローチとは異なり、AutoREは既知の関係オプションの仮定に依存しておらず、現実のシナリオをより反映している。
RE-DocREDデータセットの実験では、AutoREの最高のパフォーマンスを示し、最先端の結果が得られました。
論文 参考訳(メタデータ) (2024-03-21T23:48:21Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Mutually Guided Few-shot Learning for Relational Triple Extraction [10.539566491939844]
三重抽出(MG-FTE)のための相互指導型Few-shot学習フレームワーク
本手法は,関係を分類するエンティティ誘導型リレーショナルデコーダと,エンティティを抽出するプロトデコーダとから構成される。
FewRel 1.0(単一ドメイン)では12.6F1スコア、FewRel 2.0(クロスドメイン)では20.5F1スコアで、多くの最先端手法よりも優れています。
論文 参考訳(メタデータ) (2023-06-23T06:15:54Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - A sequence-to-sequence approach for document-level relation extraction [4.906513405712846]
文書レベルの関係抽出(DocRE)は、文内および文間の情報の統合を必要とする。
Seq2relはDocREのエンドツーエンドのサブタスクを学習し、タスク固有のコンポーネントのパイプラインを置き換える。
論文 参考訳(メタデータ) (2022-04-03T16:03:19Z) - Eider: Evidence-enhanced Document-level Relation Extraction [56.71004595444816]
文書レベルの関係抽出(DocRE)は、文書内のエンティティペア間の意味関係を抽出することを目的としている。
本稿では,共同関係と証拠抽出,エビデンス中心関係抽出(RE),抽出結果の融合からなる3段階のエビデンス強化DocREフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T09:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。