論文の概要: MatchVIE: Exploiting Match Relevancy between Entities for Visual
Information Extraction
- arxiv url: http://arxiv.org/abs/2106.12940v1
- Date: Thu, 24 Jun 2021 12:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:19:43.384817
- Title: MatchVIE: Exploiting Match Relevancy between Entities for Visual
Information Extraction
- Title(参考訳): MatchVIE:視覚情報抽出のためのエンティティ間のマッチング関連性の爆発
- Authors: Guozhi Tang, Lele Xie, Lianwen Jin, Jiapeng Wang, Jingdong Chen, Zhen
Xu, Qianying Wang, Yaqiang Wu, Hui Li
- Abstract要約: 我々は、VIE(MatchVIE)のためのグラフニューラルネットワークに基づく新しいキー値マッチングモデルを提案する。
関連性評価に基づくキー値マッチングにより、提案したMatchVIEは、認識を様々な意味論にバイパスすることができる。
我々は、エンコードされた値の不安定性に対処するために、単純だが効果的な操作であるNum2Vecを導入する。
- 参考スコア(独自算出の注目度): 48.55908127994688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Information Extraction (VIE) task aims to extract key information from
multifarious document images (e.g., invoices and purchase receipts). Most
previous methods treat the VIE task simply as a sequence labeling problem or
classification problem, which requires models to carefully identify each kind
of semantics by introducing multimodal features, such as font, color, layout.
But simply introducing multimodal features couldn't work well when faced with
numeric semantic categories or some ambiguous texts. To address this issue, in
this paper we propose a novel key-value matching model based on a graph neural
network for VIE (MatchVIE). Through key-value matching based on relevancy
evaluation, the proposed MatchVIE can bypass the recognitions to various
semantics, and simply focuses on the strong relevancy between entities.
Besides, we introduce a simple but effective operation, Num2Vec, to tackle the
instability of encoded values, which helps model converge more smoothly.
Comprehensive experiments demonstrate that the proposed MatchVIE can
significantly outperform previous methods. Notably, to the best of our
knowledge, MatchVIE may be the first attempt to tackle the VIE task by modeling
the relevancy between keys and values and it is a good complement to the
existing methods.
- Abstract(参考訳): 視覚情報抽出(VIE)タスクは、多言語文書画像(請求書や領収書など)から鍵情報を抽出することを目的としている。
従来のほとんどの方法は、VIEタスクを単にシーケンスラベリング問題や分類問題として扱い、フォント、色、レイアウトといったマルチモーダルな特徴を導入して、各セマンティクスを慎重に識別する必要がある。
しかし、単にマルチモーダル機能を導入するだけでは、数値的なセマンティックカテゴリや曖昧なテキストに直面するとうまくいきませんでした。
本稿では,この問題を解決するために,グラフニューラルネットワーク(matchvie)を用いた新しい鍵値マッチングモデルを提案する。
関連性評価に基づくキー値マッチングにより、提案したMatchVIEは、認識を様々な意味論にバイパスし、エンティティ間の強い関連性に焦点を当てる。
さらに,エンコードされた値の不安定性に対処するために,単純かつ効果的な操作であるnum2vecを導入することで,モデルの収束をよりスムーズに行うことができる。
総合的な実験により、提案したMatchVIEは従来の手法よりも大幅に優れていることが示された。
特に、私たちの知る限りでは、MatchVIEはキーと値の関連性をモデル化してVIEタスクに取り組む最初の試みであり、既存のメソッドを補完するものです。
関連論文リスト
- Fusion Makes Perfection: An Efficient Multi-Grained Matching Approach for Zero-Shot Relation Extraction [9.657656957845987]
そこで本研究では,仮想エンティティマッチングを用いて手作業によるアノテーションのコストを削減する手法を提案する。
実験結果から,本手法は従来の最先端技術(SOTA)法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:31:48Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [77.97246496316515]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - Comparing Text Representations: A Theory-Driven Approach [2.893558866535708]
我々は、テキストデータセットの特定の特徴に適合するように、計算学習理論から一般的なツールを適応させる。
本稿では,表現とタスクの整合性を評価する手法を提案する。
この方法は、分類に基づくNLPタスクの難易度を校正し、定量的に測定する。
論文 参考訳(メタデータ) (2021-09-15T17:48:19Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。