論文の概要: Cross-Modal Entity Matching for Visually Rich Documents
- arxiv url: http://arxiv.org/abs/2303.00720v1
- Date: Wed, 1 Mar 2023 18:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 13:44:08.779244
- Title: Cross-Modal Entity Matching for Visually Rich Documents
- Title(参考訳): Visually Rich Documentsのためのクロスモーダルエンティティマッチング
- Authors: Ritesh Sarkhel, Arnab Nandi
- Abstract要約: 視覚的にリッチなドキュメント(VRD)は、視覚的手がかりを利用して意味を増強する物理的/デジタル文書である。
VRD上で自動クエリを可能にする既存の作業は、この側面を考慮していない。
Juno - リレーショナルデータベースからスキーマの集合を識別し、補足的な情報で不完全なVRDを増強するフレームワーク。
- 参考スコア(独自算出の注目度): 8.426554434027938
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visually rich documents (VRD) are physical/digital documents that utilize
visual cues to augment their semantics. The information contained in these
documents are often incomplete. Existing works that enable automated querying
on VRDs do not take this aspect into account. Consequently, they support a
limited set of queries. In this paper, we describe Juno -- a multimodal
framework that identifies a set of tuples from a relational database to augment
an incomplete VRD with supplementary information. Our main contribution in this
is an end-to-end-trainable neural network with bi-directional attention that
executes this cross-modal entity matching task without any prior knowledge
about the document type or the underlying database-schema. Exhaustive
experiments on two heteroegeneous datasets show that Juno outperforms
state-of-the-art baselines by more than 6% in F1-score, while reducing the
amount of human-effort in its workflow by more than 80%. To the best of our
knowledge, ours is the first work that investigates the incompleteness of VRDs
and proposes a robust framework to address it in a seamless way.
- Abstract(参考訳): 視覚的にリッチなドキュメント(VRD)は、視覚的手がかりを利用して意味を増強する物理的/デジタル文書である。
これらの文書に含まれる情報は、しばしば不完全である。
VRDの自動クエリを可能にする既存の作業は、この側面を考慮していない。
その結果、限られたクエリセットをサポートする。
本稿では、リレーショナルデータベースからタプルの集合を識別し、補足情報を備えた不完全なVRDを強化するマルチモーダルフレームワークであるJunoについて述べる。
ドキュメントタイプや基盤となるデータベーススキーマを事前に知ることなく、このクロスモーダルなエンティティマッチングタスクを実行する双方向注意を備えた、エンドツーエンドのトレーニング可能なニューラルネットワークです。
2つの異種データセットの発掘実験によると、JunoはF1スコアで最先端のベースラインを6%以上上回り、ワークフローにおける人的負担を80%以上削減している。
私たちの知る限りでは、VRDの不完全性を調査する最初の研究であり、シームレスに対処するための堅牢なフレームワークを提案しています。
関連論文リスト
- DREQ: Document Re-Ranking Using Entity-based Query Understanding [6.675805308519988]
DREQはエンティティ指向の高密度ドキュメント再ランクモデルである。
ドキュメント表現内のクエリ関連エンティティを強調しながら、関連性の低いエンティティを同時に減らします。
DREQは、最先端のニューラル・非ニューラル・リグレード法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-11T14:27:12Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Doc2Graph: a Task Agnostic Document Understanding Framework based on
Graph Neural Networks [0.965964228590342]
GNNモデルに基づくタスクに依存しない文書理解フレームワークDoc2Graphを提案する。
形態理解,請求書レイアウト解析,テーブル検出における鍵情報抽出のための2つの挑戦的データセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-08-23T19:48:10Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。