論文の概要: Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning
- arxiv url: http://arxiv.org/abs/2009.14457v2
- Date: Wed, 5 Jan 2022 11:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:15:51.772491
- Title: Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning
- Title(参考訳): マルチモーダル・マルチタスク学習に基づく文書表現学習のための事前学習フレームワーク
- Authors: Subhojeet Pramanik, Shashank Mujumdar, Hima Patel
- Abstract要約: 本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
- 参考スコア(独自算出の注目度): 5.109216329453963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches in literature have exploited the multi-modal information in
documents (text, layout, image) to serve specific downstream document tasks.
However, they are limited by their - (i) inability to learn cross-modal
representations across text, layout and image dimensions for documents and (ii)
inability to process multi-page documents. Pre-training techniques have been
shown in Natural Language Processing (NLP) domain to learn generic textual
representations from large unlabelled datasets, applicable to various
downstream NLP tasks. In this paper, we propose a multi-task learning-based
framework that utilizes a combination of self-supervised and supervised
pre-training tasks to learn a generic document representation applicable to
various downstream document tasks. Specifically, we introduce Document Topic
Modelling and Document Shuffle Prediction as novel pre-training tasks to learn
rich image representations along with the text and layout representations for
documents. We utilize the Longformer network architecture as the backbone to
encode the multi-modal information from multi-page documents in an end-to-end
fashion. We showcase the applicability of our pre-training framework on a
variety of different real-world document tasks such as document classification,
document information extraction, and document retrieval. We evaluate our
framework on different standard document datasets and conduct exhaustive
experiments to compare performance against various ablations of our framework
and state-of-the-art baselines.
- Abstract(参考訳): 文学における最近のアプローチでは、文書(テキスト、レイアウト、画像)のマルチモーダル情報を利用して、特定の下流の文書タスクを提供する。
ただし、それらには制限がある。
(i)文書のテキスト、レイアウト、画像寸法をまたいだクロスモーダル表現を学習できないこと。
(ii)複数ページの文書を処理できないこと。
自然言語処理(NLP)ドメインでは、さまざまな下流のNLPタスクに適用可能な、大きなラベルのないデータセットから汎用的なテキスト表現を学ぶための事前学習技術が示されている。
本稿では,自己指導型および教師型事前学習型タスクを組み合わせたマルチタスク学習型フレームワークを提案し,様々な下流文書タスクに適用可能な汎用文書表現を学習する。
具体的には,新しい事前学習タスクとして文書トピックモデリングと文書シャッフル予測を導入し,文書のテキストやレイアウト表現とともにリッチな画像表現を学習する。
ロングフォーマーネットワークアーキテクチャをバックボーンとして,マルチページ文書からのマルチモーダル情報をエンドツーエンドでエンコードする。
本稿では,文書分類,文書情報抽出,文書検索など,さまざまな実世界の文書タスクに対する事前学習フレームワークの適用性を示す。
我々は,異なる標準文書データセット上でのフレームワークの評価を行い,フレームワークの様々な改善と最先端のベースラインのパフォーマンスを比較するための徹底的な実験を行った。
関連論文リスト
- Hierarchical Multimodal Pre-training for Visually Rich Webpage
Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。
本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。
実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-02-28T11:50:36Z) - Leveraging Collection-Wide Similarities for Unsupervised Document
Structure Extraction [69.68042613919447]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - PDSum: Prototype-driven Continuous Summarization of Evolving
Multi-document Sets Stream [33.68263291948121]
我々は,新たな要約問題であるマルチドキュメントセットストリーム要約(EMDS)を提案する。
本稿では,プロトタイプ駆動連続要約のアイデアを取り入れた新しい教師なしアルゴリズムPDSumを紹介する。
PDSumは、各マルチドキュメントセットの軽量プロトタイプを構築し、それを利用して、新しいドキュメントに適応する。
論文 参考訳(メタデータ) (2023-02-10T23:43:46Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。