論文の概要: PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction
- arxiv url: http://arxiv.org/abs/2401.03472v3
- Date: Sun, 17 Nov 2024 12:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:53.071257
- Title: PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction
- Title(参考訳): PEneo: エンド・ツー・エンドのドキュメントペア抽出のための行抽出、行のグループ化、エンティティリンクの統合
- Authors: Zening Lin, Jiapeng Wang, Teng Li, Wenhui Liao, Dayi Huang, Longfei Xiong, Lianwen Jin,
- Abstract要約: ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
本稿では,統一パイプラインで文書ペア抽出を行う新しいフレームワークであるPEneoを紹介する。
- 参考スコア(独自算出の注目度): 28.205723817300576
- License:
- Abstract: Document pair extraction aims to identify key and value entities as well as their relationships from visually-rich documents. Most existing methods divide it into two separate tasks: semantic entity recognition (SER) and relation extraction (RE). However, simply concatenating SER and RE serially can lead to severe error propagation, and it fails to handle cases like multi-line entities in real scenarios. To address these issues, this paper introduces a novel framework, PEneo (Pair Extraction new decoder option), which performs document pair extraction in a unified pipeline, incorporating three concurrent sub-tasks: line extraction, line grouping, and entity linking. This approach alleviates the error accumulation problem and can handle the case of multi-line entities. Furthermore, to better evaluate the model's performance and to facilitate future research on pair extraction, we introduce RFUND, a re-annotated version of the commonly used FUNSD and XFUND datasets, to make them more accurate and cover realistic situations. Experiments on various benchmarks demonstrate PEneo's superiority over previous pipelines, boosting the performance by a large margin (e.g., 19.89%-22.91% F1 score on RFUND-EN) when combined with various backbones like LiLT and LayoutLMv3, showing its effectiveness and generality. Codes and the new annotations are available at https://github.com/ZeningLin/PEneo.
- Abstract(参考訳): ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
しかし、単にSERとREを直列に結合すれば、重大なエラーの伝播が起こり、実際のシナリオにおけるマルチラインエンティティのようなケースを処理できない。
これらの問題に対処するため,本研究では,ライン抽出,ライングルーピング,エンティティリンクという3つの並列サブタスクを組み込んだPEneo (Pair extract new decoder option) という新しいフレームワークを提案する。
このアプローチは、エラーの蓄積問題を軽減し、マルチラインエンティティのケースを処理できる。
さらに、モデルの性能をよりよく評価し、ペア抽出の今後の研究を促進するために、一般的なFUNSDとXFUNDデータセットの再注釈版であるRFUNDを導入し、より正確で現実的な状況をカバーする。
様々なベンチマークの実験では、Peneoが以前のパイプラインよりも優れていることが示され、LiLTやLayoutLMv3といった様々なバックボーンと組み合わせることで、大きなマージン(例えばRFUND-ENの19.89%-22.91%のF1スコア)で性能が向上した。
コードと新しいアノテーションはhttps://github.com/ZeningLin/PEneo.comで入手できる。
関連論文リスト
- GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction [15.246183329778656]
ドキュメントレベルの関係抽出(DocRE)は、構造化されていない文書テキストからエンティティ間の関係を抽出することを目的としている。
これらの課題を克服するために,DocREの新しいモデルであるGEGAを提案する。
我々は、広く使用されている3つのベンチマークデータセット、DocRED、Re-DocRED、Revisit-DocREDでGEGAモデルを評価する。
論文 参考訳(メタデータ) (2024-07-31T07:15:33Z) - REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking [11.374031643273941]
REXELは文書レベルcIE(DocIE)の共同作業のための高効率かつ高精度なモデルである
同様の環境では、競合する既存のアプローチよりも平均11倍高速です。
速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。
論文 参考訳(メタデータ) (2024-04-19T11:04:27Z) - AutoRE: Document-Level Relation Extraction with Large Language Models [27.426703757501507]
我々は、RHF(Relation-Head-Facts)という新しいRE抽出パラダイムを採用した、エンド・ツー・エンドのDocREモデルであるAutoREを紹介する。
既存のアプローチとは異なり、AutoREは既知の関係オプションの仮定に依存しておらず、現実のシナリオをより反映している。
RE-DocREDデータセットの実験では、AutoREの最高のパフォーマンスを示し、最先端の結果が得られました。
論文 参考訳(メタデータ) (2024-03-21T23:48:21Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Mutually Guided Few-shot Learning for Relational Triple Extraction [10.539566491939844]
三重抽出(MG-FTE)のための相互指導型Few-shot学習フレームワーク
本手法は,関係を分類するエンティティ誘導型リレーショナルデコーダと,エンティティを抽出するプロトデコーダとから構成される。
FewRel 1.0(単一ドメイン)では12.6F1スコア、FewRel 2.0(クロスドメイン)では20.5F1スコアで、多くの最先端手法よりも優れています。
論文 参考訳(メタデータ) (2023-06-23T06:15:54Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - A sequence-to-sequence approach for document-level relation extraction [4.906513405712846]
文書レベルの関係抽出(DocRE)は、文内および文間の情報の統合を必要とする。
Seq2relはDocREのエンドツーエンドのサブタスクを学習し、タスク固有のコンポーネントのパイプラインを置き換える。
論文 参考訳(メタデータ) (2022-04-03T16:03:19Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。