論文の概要: XDoc: Unified Pre-training for Cross-Format Document Understanding
- arxiv url: http://arxiv.org/abs/2210.02849v1
- Date: Thu, 6 Oct 2022 12:07:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:28:36.388249
- Title: XDoc: Unified Pre-training for Cross-Format Document Understanding
- Title(参考訳): XDoc: クロスフォーマットドキュメント理解のための統一事前トレーニング
- Authors: Jingye Chen, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei
- Abstract要約: XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 84.63416346227176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The surge of pre-training has witnessed the rapid development of document
understanding recently. Pre-training and fine-tuning framework has been
effectively used to tackle texts in various formats, including plain texts,
document texts, and web texts. Despite achieving promising performance,
existing pre-trained models usually target one specific document format at one
time, making it difficult to combine knowledge from multiple document formats.
To address this, we propose XDoc, a unified pre-trained model which deals with
different document formats in a single model. For parameter efficiency, we
share backbone parameters for different formats such as the word embedding
layer and the Transformer layers. Meanwhile, we introduce adaptive layers with
lightweight parameters to enhance the distinction across different formats.
Experimental results have demonstrated that with only 36.7% parameters, XDoc
achieves comparable or even better performance on a variety of downstream tasks
compared with the individual pre-trained models, which is cost effective for
real-world deployment. The code and pre-trained models will be publicly
available at \url{https://aka.ms/xdoc}.
- Abstract(参考訳): 事前学習の急増は、文書理解の急速な発展を目撃している。
事前学習と微調整のフレームワークは、プレーンテキスト、文書テキスト、ウェブテキストなど、さまざまなフォーマットでテキストに取り組むために効果的に使用されている。
有望なパフォーマンスを達成しているにもかかわらず、既存の事前訓練されたモデルは、通常、一度に1つの特定のドキュメントフォーマットをターゲットにしている。
そこで本研究では,複数の文書フォーマットを1つのモデルで処理する事前学習モデルXDocを提案する。
パラメータ効率の面では、ワード埋め込み層やトランスフォーマー層といった異なるフォーマットのバックボーンパラメータを共有する。
一方,異なるフォーマット間の識別性を高めるために,軽量パラメータによる適応層を導入する。
実験の結果、36.7%のパラメータしか持たないxdocは、個々の事前訓練されたモデルと比較して、様々な下流タスクで同等またはそれ以上の性能を達成している。
コードと事前訓練されたモデルは、 \url{https://aka.ms/xdoc} で公開される。
関連論文リスト
- DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception [16.301481927603554]
速度の優位性を保ちながら精度を向上させる新しいアプローチであるDoc-YOLOを導入する。
堅牢な文書事前学習には、Mesh-candidate BestFitアルゴリズムを導入する。
モデル最適化の観点からは,グローバルからローカライズ可能な受信モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-16T14:50:47Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z) - Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity [11.157086694203201]
本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
論文 参考訳(メタデータ) (2021-11-16T11:12:30Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - ERNIE-DOC: The Retrospective Long-Document Modeling Transformer [24.426571160930635]
Recurrence Transformersに基づく文書レベルの言語プリトレーニングモデルであるERNIE-DOCを提案する。
ふりかえりフィード機構とリカレンスメカニズムの強化という2つのよく設計されたテクニックにより、ELNIE-DOCははるかに長いコンテキスト長を実現できます。
英語と中国語の文書レベルのタスクについて様々な実験を行った。
論文 参考訳(メタデータ) (2020-12-31T16:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。