論文の概要: GroupLink: An End-to-end Multitask Method for Word Grouping and Relation
Extraction in Form Understanding
- arxiv url: http://arxiv.org/abs/2105.04650v1
- Date: Mon, 10 May 2021 20:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 06:26:35.952689
- Title: GroupLink: An End-to-end Multitask Method for Word Grouping and Relation
Extraction in Form Understanding
- Title(参考訳): GroupLink:フォーム理解における単語グループ化と関係抽出のためのエンドツーエンドマルチタスク手法
- Authors: Zilong Wang, Mingjie Zhan, Houxing Ren, Zhaohui Hou, Yuwei Wu, Xingyan
Zhang, Ding Liang
- Abstract要約: 単語グループ化と関係抽出を組み合わせたマルチタスク学習によるエンドツーエンドモデルを構築し,各タスクの性能向上を図る。
提案手法を実世界の完全注釈付きノイズスキャンベンチマークであるFUNSDで検証する。
- 参考スコア(独自算出の注目度): 25.71040852477277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forms are a common type of document in real life and carry rich information
through textual contents and the organizational structure. To realize automatic
processing of forms, word grouping and relation extraction are two fundamental
and crucial steps after preliminary processing of optical character reader
(OCR). Word grouping is to aggregate words that belong to the same semantic
entity, and relation extraction is to predict the links between semantic
entities. Existing works treat them as two individual tasks, but these two
tasks are correlated and can reinforce each other. The grouping process will
refine the integrated representation of the corresponding entity, and the
linking process will give feedback to the grouping performance. For this
purpose, we acquire multimodal features from both textual data and layout
information and build an end-to-end model through multitask training to combine
word grouping and relation extraction to enhance performance on each task. We
validate our proposed method on a real-world, fully-annotated, noisy-scanned
benchmark, FUNSD, and extensive experiments demonstrate the effectiveness of
our method.
- Abstract(参考訳): 形式は実生活における一般的なタイプの文書であり、テキストの内容や組織構造を通じて豊富な情報を運ぶ。
光文字読取装置(OCR)の予備処理後、形態の自動処理を実現するために、単語分類と関係抽出は2つの基本的かつ重要なステップである。
単語分類は、同じ意味エンティティに属する単語を集約することであり、関係抽出は、意味エンティティ間のリンクを予測することである。
既存の作業では2つのタスクとして扱われるが、これら2つのタスクは相互に関連付けられ、相互に強化することができる。
グループ化プロセスは対応するエンティティの統合表現を洗練させ、リンクプロセスはグループ化のパフォーマンスにフィードバックを与える。
この目的のために,テキストデータとレイアウト情報の両方からマルチモーダルな特徴を取得し,各タスクの性能を高めるために,単語グループ化と関係抽出を組み合わせたマルチタスクトレーニングによるエンドツーエンドモデルを構築する。
本手法の有効性を実証するために本手法の有効性を検証し,提案手法の有効性を検証した。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Multi-grained Label Refinement Network with Dependency Structures for
Joint Intent Detection and Slot Filling [13.963083174197164]
発話の意図と意味的構成要素は、文の構文的要素に依存する。
本稿では,依存性構造とラベルセマンティック埋め込みを利用した多層ラベル精細ネットワークについて検討する。
構文表現の強化を考慮し,グラフアテンション層による文の係り受け構造をモデルに導入する。
論文 参考訳(メタデータ) (2022-09-09T07:27:38Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - TAGPRIME: A Unified Framework for Relational Structure Extraction [71.88926365652034]
TAGPRIMEは、与えられた条件に関する情報を入力テキストに追加するシーケンスタグ付けモデルである。
事前学習された言語モデルにおける自己認識機構により、プライミングワードは、出力された文脈化された表現に、与えられた条件に関するより多くの情報を含む。
5つの異なる言語にまたがる10のデータセットをカバーする3つのタスクに関する大規模な実験と分析は、TAGPRIMEの汎用性と有効性を示している。
論文 参考訳(メタデータ) (2022-05-25T08:57:46Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - Divide and Conquer: Text Semantic Matching with Disentangled Keywords
and Intents [19.035917264711664]
本稿では,キーワードを意図から切り離してテキストセマンティックマッチングを行うためのトレーニング戦略を提案する。
提案手法は,予測効率に影響を与えることなく,事前学習言語モデル(PLM)と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-03-06T07:48:24Z) - DocStruct: A Multimodal Method to Extract Hierarchy Structure in
Document for General Form Understanding [15.814603044233085]
我々は、最も基本的なコンポーネント、キーと値のペアに焦点を合わせ、特徴抽出にマルチモーダル手法を採用する。
我々は、最先端モデルとターゲット抽出モジュールを用いて、マルチモーダルな特徴を抽出する。
結合と特徴シフトのハイブリッド融合法は、異種特徴を融合させ、情報的関節表現を提供するように設計されている。
論文 参考訳(メタデータ) (2020-10-15T08:54:17Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。