Fugu-MT 論文翻訳(概要): PPN: Parallel Pointer-based Network for Key Information Extraction with Complex Layouts

論文の概要: PPN: Parallel Pointer-based Network for Key Information Extraction with Complex Layouts

arxiv url: http://arxiv.org/abs/2307.10551v1
Date: Thu, 20 Jul 2023 03:29:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 14:59:44.007281
Title: PPN: Parallel Pointer-based Network for Key Information Extraction with Complex Layouts
Title（参考訳）: PPN:複合レイアウトを用いた鍵情報抽出のための並列ポインタベースネットワーク
Authors: Kaiwen Wei, Jie Yao, Jingyuan Zhang, Yangyang Kang, Fubang Zhao, Yating Zhang, Changlong Sun, Xin Jin, Xin Zhang
Abstract要約: キー情報抽出は、ドキュメントから構造化された値セマンティックエンティティを抽出することを目的とした課題である。既存の手法は2段階のパイプライン戦略に従っており、エラー伝搬問題につながる可能性がある。ゼロショットおよび少数ショットシナリオに適用可能なエンドツーエンドモデルであるParallel Pointer-based Network (PPN)を紹介する。
参考スコア（独自算出の注目度）: 29.73609439825548
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Key Information Extraction (KIE) is a challenging multimodal task that aims to extract structured value semantic entities from visually rich documents. Although significant progress has been made, there are still two major challenges that need to be addressed. Firstly, the layout of existing datasets is relatively fixed and limited in the number of semantic entity categories, creating a significant gap between these datasets and the complex real-world scenarios. Secondly, existing methods follow a two-stage pipeline strategy, which may lead to the error propagation problem. Additionally, they are difficult to apply in situations where unseen semantic entity categories emerge. To address the first challenge, we propose a new large-scale human-annotated dataset named Complex Layout form for key information EXtraction (CLEX), which consists of 5,860 images with 1,162 semantic entity categories. To solve the second challenge, we introduce Parallel Pointer-based Network (PPN), an end-to-end model that can be applied in zero-shot and few-shot scenarios. PPN leverages the implicit clues between semantic entities to assist extracting, and its parallel extraction mechanism allows it to extract multiple results simultaneously and efficiently. Experiments on the CLEX dataset demonstrate that PPN outperforms existing state-of-the-art methods while also offering a much faster inference speed.
Abstract（参考訳）: キー情報抽出(KIE)は、視覚的にリッチなドキュメントから構造化された値の意味的エンティティを抽出することを目的とした、挑戦的なマルチモーダルタスクである。重要な進展はありますが、対処すべき大きな課題は2つあります。まず、既存のデータセットのレイアウトが比較的固定され、セマンティックエンティティのカテゴリの数に制限されるため、これらのデータセットと複雑な実世界のシナリオの間に大きなギャップが生じる。第二に、既存の手法は2段階のパイプライン戦略に従い、エラー伝播問題を引き起こす可能性がある。さらに、見当たらない意味的エンティティカテゴリが出現する状況では、適用が難しい。キー情報抽出のための複合レイアウト形式 (clex) と呼ばれる, 意味的エンティティカテゴリ1,162の5,860画像からなる, 新たな大規模ヒューマンアノテートデータセットを提案する。第2の課題を解決するために,ゼロショットおよび少数ショットシナリオに適用可能なエンドツーエンドモデルであるParallel Pointer-based Network (PPN)を導入する。 PPNはセマンティックエンティティ間の暗黙の手がかりを利用して抽出を支援し、その並列抽出機構により複数の結果を同時に効率的に抽出することができる。 CLEXデータセットの実験では、PPNは既存の最先端メソッドよりも優れており、推論速度もはるかに高速である。

関連論文リスト

Rethinking Irregular Time Series Forecasting: A Simple yet Effective Baseline [12.66709671516384]
本稿では,汎用的で効率的な予測フレームワークであるAPNを紹介する。 APNの中核には、新しい Time-Aware Patch Aggregation (ATAPA) モジュールがある。パッチ表現をタイムアウェアな重み付けで計算し、すべての生の観察を集約する。このアプローチは、人工的なデータポイントの導入を回避し、設計による完全な情報カバレッジを確保することによって、データの忠実性を維持する。
論文参考訳（メタデータ） (2025-05-16T13:42:00Z)
Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-04-15T17:35:56Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 2つの重要な特徴を持つ新しいRECデータセットを導入する。第一に、オブジェクトカテゴリ、属性、関係性に関する詳細な推論を必要とする、制御可能な難易度で設計されている。第二に、微粒な編集によって生成された否定的なテキストと画像が組み込まれ、既存のターゲットを拒否するモデルの能力を明示的にテストする。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition [9.506482334842293]
Grounded Multimodal Named Entity Recognition (GMNER) は、新しい情報抽出(IE)タスクである。近年,機械読解やシーケンス生成に基づくフレームワークを用いた統一手法は,この難易度に限界を生じさせている。そこで我々は,Multi-fine Query-guided Set Prediction Network (MQSPN) という新しい統合フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T05:42:43Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
EnriCo: Enriched Representation and Globally Constrained Inference for Entity and Relation Extraction [3.579132482505273]
結合実体と関係抽出は、特に知識グラフの構築において、様々な応用において重要な役割を担っている。既存のアプローチはしばしば、表現の豊かさと出力構造におけるコヒーレンスという2つの重要な側面に欠ける。本研究では,これらの欠点を緩和するEnriCoを紹介する。
論文参考訳（メタデータ） (2024-04-18T20:15:48Z)
LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文参考訳（メタデータ） (2024-04-12T14:40:45Z)
PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction [28.205723817300576]
ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。本稿では,統一パイプラインで文書ペア抽出を行う新しいフレームワークであるPEneoを紹介する。
論文参考訳（メタデータ） (2024-01-07T12:48:07Z)
Efficient and Effective Deep Multi-view Subspace Clustering [9.6753782215283]
E$2$MVSC(Efficient and Effective Deep Multi-View Subspace Clustering)と呼ばれる新しいディープフレームワークを提案する。パラメータ化されたFC層の代わりに、より計算効率のよいサンプル数からネットワークパラメータスケールを分離するRelation-Metric Netを設計する。 E$2$MVSCは既存のメソッドに匹敵する結果を出し、様々なタイプのマルチビューデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-15T03:08:25Z)
A Unified One-Step Solution for Aspect Sentiment Quad Prediction [3.428123050377681]
アスペクトベースの感情分析において、アスペクト感情クワッド予測(ASQP)は難しいが重要なサブタスクである。我々はASQPのための2つの新しいデータセットをリリースし、このデータセットには、より大きなサイズ、サンプルあたりの単語数、より高密度の2つの特徴が含まれている。そこで我々は,ASQPを統一したワンステップソリューションであるOne-ASQPを提案し,アスペクトカテゴリを検出し,アスペクト-オピニオン-感覚三重項を同時に同定する。
論文参考訳（メタデータ） (2023-06-07T05:00:01Z)
ReSel: N-ary Relation Extraction from Scientific Text and Tables by Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。 3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-26T02:28:02Z)
X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文参考訳（メタデータ） (2021-06-07T16:40:05Z)
Data Augmentation for Abstractive Query-Focused Multi-Document Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文参考訳（メタデータ） (2021-03-02T16:57:01Z)
Cross-Supervised Joint-Event-Extraction with Heterogeneous Information Networks [61.950353376870154]
Joint-event- Extractは、トリガとエンティティのタグからなるタグセットを備えたシーケンスからシーケンスまでのラベリングタスクである。トリガやエンティティの抽出を交互に監督するクロススーパーバイザードメカニズム(CSM)を提案する。我々の手法は、エンティティとトリガー抽出の両方において最先端の手法よりも優れています。
論文参考訳（メタデータ） (2020-10-13T11:51:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。