Fugu-MT 論文翻訳(概要): M3-VRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding

論文の概要: M3-VRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding

arxiv url: http://arxiv.org/abs/2402.17983v1
Date: Wed, 28 Feb 2024 01:56:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 16:47:12.632267
Title: M3-VRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding
Title（参考訳）: M3-VRD:マルチモーダルマルチタスクマルチ教師ビジュアルリッチフォーム文書理解
Authors: Yihao Ding, Lorenzo Vaiani, Caren Han, Jean Lee, Paolo Garza, Josiah Poon, Luca Cagliero
Abstract要約: このモデルは、トークンとエンティティ表現の微妙な相関を容易にすることで、きめ細かいレベルと粗いレベルの両方からの洞察を活用するように設計されている。多様な多教師の知識蒸留プロセスを改善するために,新たな粒度間・粒度間損失関数を導入する。公開形式の文書理解データセットを包括的に評価することにより,提案モデルは既存のベースラインを一貫して上回る。
参考スコア（独自算出の注目度）: 13.853716642182912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a groundbreaking multimodal, multi-task, multi-teacher joint-grained knowledge distillation model for visually-rich form document understanding. The model is designed to leverage insights from both fine-grained and coarse-grained levels by facilitating a nuanced correlation between token and entity representations, addressing the complexities inherent in form documents. Additionally, we introduce new inter-grained and cross-grained loss functions to further refine diverse multi-teacher knowledge distillation transfer process, presenting distribution gaps and a harmonised understanding of form documents. Through a comprehensive evaluation across publicly available form document understanding datasets, our proposed model consistently outperforms existing baselines, showcasing its efficacy in handling the intricate structures and content of visually complex form documents.
Abstract（参考訳）: 本稿では,視覚的にリッチな文書理解のためのマルチモーダル・マルチタスク・マルチ教師合同知識蒸留モデルを提案する。このモデルは、トークンとエンティティ表現の微妙な相関を容易にし、フォームドキュメントに固有の複雑さに対処することによって、きめ細かなレベルと粗いレベルの両方の洞察を活用するように設計されている。さらに, 多様な多教師間知識蒸留プロセスの高度化, 分散ギャップの提示, フォーム文書の調和的理解を実現するために, 新たな粒度間・粒度間損失関数を導入する。公開フォーム文書理解データセットの包括的評価を通じて,提案モデルは既存のベースラインを一貫して上回り,視覚的に複雑なフォーム文書の複雑な構造や内容を扱う上での有効性を示す。

関連論文リスト

Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文参考訳（メタデータ） (2025-07-08T09:24:07Z)
A Rhetorical Relations-Based Framework for Tailored Multimedia Document Summarization [0.0]
本稿では,マルチメディア文書要約のための新しいフレームワークを提案する。このフレームワークは文書の固有の構造を利用して、一貫性と簡潔な要約を作成できる。重み付けアルゴリズムを用いて文書単位に重み付けを行い、関連コンテンツの効果的なランク付けと選択を可能にする。
論文参考訳（メタデータ） (2024-12-26T09:29:59Z)
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文参考訳（メタデータ） (2024-10-28T16:11:35Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文参考訳（メタデータ） (2024-07-18T01:33:20Z)
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文参考訳（メタデータ） (2024-03-21T09:25:24Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
Towards Flexible Multi-modal Document Models [27.955214767628107]
本研究では,様々な設計課題を共同で解決できる包括的モデルの構築を試みる。われわれのモデルはFlexDMで表され、ベクトルグラフィック文書をマルチモーダル要素の調和した集合として扱う。実験の結果、我々の単一のFlexDMが様々な設計タスクをうまく解決できることがわかった。
論文参考訳（メタデータ） (2023-03-31T17:59:56Z)
Cross-view Graph Contrastive Representation Learning on Partially Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文参考訳（メタデータ） (2022-11-08T09:19:32Z)
Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文参考訳（メタデータ） (2022-09-02T08:59:57Z)
Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。そして、理論的に学習された潜在表現の多元性を証明する。
論文参考訳（メタデータ） (2020-11-12T02:29:29Z)
Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文参考訳（メタデータ） (2020-05-20T13:39:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。