論文の概要: M3-VRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document
Understanding
- arxiv url: http://arxiv.org/abs/2402.17983v1
- Date: Wed, 28 Feb 2024 01:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:47:12.632267
- Title: M3-VRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document
Understanding
- Title(参考訳): M3-VRD:マルチモーダルマルチタスクマルチ教師 ビジュアルリッチフォーム文書理解
- Authors: Yihao Ding, Lorenzo Vaiani, Caren Han, Jean Lee, Paolo Garza, Josiah
Poon, Luca Cagliero
- Abstract要約: このモデルは、トークンとエンティティ表現の微妙な相関を容易にすることで、きめ細かいレベルと粗いレベルの両方からの洞察を活用するように設計されている。
多様な多教師の知識蒸留プロセスを改善するために,新たな粒度間・粒度間損失関数を導入する。
公開形式の文書理解データセットを包括的に評価することにより,提案モデルは既存のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 13.853716642182912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a groundbreaking multimodal, multi-task, multi-teacher
joint-grained knowledge distillation model for visually-rich form document
understanding. The model is designed to leverage insights from both
fine-grained and coarse-grained levels by facilitating a nuanced correlation
between token and entity representations, addressing the complexities inherent
in form documents. Additionally, we introduce new inter-grained and
cross-grained loss functions to further refine diverse multi-teacher knowledge
distillation transfer process, presenting distribution gaps and a harmonised
understanding of form documents. Through a comprehensive evaluation across
publicly available form document understanding datasets, our proposed model
consistently outperforms existing baselines, showcasing its efficacy in
handling the intricate structures and content of visually complex form
documents.
- Abstract(参考訳): 本稿では,視覚的にリッチな文書理解のためのマルチモーダル・マルチタスク・マルチ教師合同知識蒸留モデルを提案する。
このモデルは、トークンとエンティティ表現の微妙な相関を容易にし、フォームドキュメントに固有の複雑さに対処することによって、きめ細かなレベルと粗いレベルの両方の洞察を活用するように設計されている。
さらに, 多様な多教師間知識蒸留プロセスの高度化, 分散ギャップの提示, フォーム文書の調和的理解を実現するために, 新たな粒度間・粒度間損失関数を導入する。
公開フォーム文書理解データセットの包括的評価を通じて,提案モデルは既存のベースラインを一貫して上回り,視覚的に複雑なフォーム文書の複雑な構造や内容を扱う上での有効性を示す。
関連論文リスト
- A Rhetorical Relations-Based Framework for Tailored Multimedia Document Summarization [0.0]
本稿では,マルチメディア文書要約のための新しいフレームワークを提案する。
このフレームワークは文書の固有の構造を利用して、一貫性と簡潔な要約を作成できる。
重み付けアルゴリズムを用いて文書単位に重み付けを行い、関連コンテンツの効果的なランク付けと選択を可能にする。
論文 参考訳(メタデータ) (2024-12-26T09:29:59Z) - Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。
文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。
本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。
任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。
提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文 参考訳(メタデータ) (2024-07-18T01:33:20Z) - LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。
画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。
本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文 参考訳(メタデータ) (2024-03-21T09:25:24Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Towards Flexible Multi-modal Document Models [27.955214767628107]
本研究では,様々な設計課題を共同で解決できる包括的モデルの構築を試みる。
われわれのモデルはFlexDMで表され、ベクトルグラフィック文書をマルチモーダル要素の調和した集合として扱う。
実験の結果、我々の単一のFlexDMが様々な設計タスクをうまく解決できることがわかった。
論文 参考訳(メタデータ) (2023-03-31T17:59:56Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。