論文の概要: Cross-Modal Entity Matching for Visually Rich Documents
- arxiv url: http://arxiv.org/abs/2303.00720v1
- Date: Wed, 1 Mar 2023 18:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 13:44:08.779244
- Title: Cross-Modal Entity Matching for Visually Rich Documents
- Title(参考訳): Visually Rich Documentsのためのクロスモーダルエンティティマッチング
- Authors: Ritesh Sarkhel, Arnab Nandi
- Abstract要約: 視覚的にリッチなドキュメント(VRD)は、視覚的手がかりを利用して意味を増強する物理的/デジタル文書である。
VRD上で自動クエリを可能にする既存の作業は、この側面を考慮していない。
Juno - リレーショナルデータベースからスキーマの集合を識別し、補足的な情報で不完全なVRDを増強するフレームワーク。
- 参考スコア(独自算出の注目度): 8.426554434027938
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visually rich documents (VRD) are physical/digital documents that utilize
visual cues to augment their semantics. The information contained in these
documents are often incomplete. Existing works that enable automated querying
on VRDs do not take this aspect into account. Consequently, they support a
limited set of queries. In this paper, we describe Juno -- a multimodal
framework that identifies a set of tuples from a relational database to augment
an incomplete VRD with supplementary information. Our main contribution in this
is an end-to-end-trainable neural network with bi-directional attention that
executes this cross-modal entity matching task without any prior knowledge
about the document type or the underlying database-schema. Exhaustive
experiments on two heteroegeneous datasets show that Juno outperforms
state-of-the-art baselines by more than 6% in F1-score, while reducing the
amount of human-effort in its workflow by more than 80%. To the best of our
knowledge, ours is the first work that investigates the incompleteness of VRDs
and proposes a robust framework to address it in a seamless way.
- Abstract(参考訳): 視覚的にリッチなドキュメント(VRD)は、視覚的手がかりを利用して意味を増強する物理的/デジタル文書である。
これらの文書に含まれる情報は、しばしば不完全である。
VRDの自動クエリを可能にする既存の作業は、この側面を考慮していない。
その結果、限られたクエリセットをサポートする。
本稿では、リレーショナルデータベースからタプルの集合を識別し、補足情報を備えた不完全なVRDを強化するマルチモーダルフレームワークであるJunoについて述べる。
ドキュメントタイプや基盤となるデータベーススキーマを事前に知ることなく、このクロスモーダルなエンティティマッチングタスクを実行する双方向注意を備えた、エンドツーエンドのトレーニング可能なニューラルネットワークです。
2つの異種データセットの発掘実験によると、JunoはF1スコアで最先端のベースラインを6%以上上回り、ワークフローにおける人的負担を80%以上削減している。
私たちの知る限りでは、VRDの不完全性を調査する最初の研究であり、シームレスに対処するための堅牢なフレームワークを提案しています。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。