Fugu-MT 論文翻訳(概要): Unified Pretraining Framework for Document Understanding

論文の概要: Unified Pretraining Framework for Document Understanding

arxiv url: http://arxiv.org/abs/2204.10939v1
Date: Fri, 22 Apr 2022 21:47:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-27 11:47:57.993896
Title: Unified Pretraining Framework for Document Understanding
Title（参考訳）: 文書理解のための統一事前学習フレームワーク
Authors: Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Nikolaos Barmpalios, Rajiv Jain, Ani Nenkova, Tong Sun
Abstract要約: 文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
参考スコア（独自算出の注目度）: 52.224359498792836
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Document intelligence automates the extraction of information from documents and supports many business applications. Recent self-supervised learning methods on large-scale unlabeled document datasets have opened up promising directions towards reducing annotation efforts by training models with self-supervised objectives. However, most of the existing document pretraining methods are still language-dominated. We present UDoc, a new unified pretraining framework for document understanding. UDoc is designed to support most document understanding tasks, extending the Transformer to take multimodal embeddings as input. Each input element is composed of words and visual features from a semantic region of the input document image. An important feature of UDoc is that it learns a generic representation by making use of three self-supervised losses, encouraging the representation to model sentences, learn similarities, and align modalities. Extensive empirical analysis demonstrates that the pretraining procedure learns better joint representations and leads to improvements in downstream tasks.
Abstract（参考訳）: document intelligenceは、ドキュメントからの情報抽出を自動化し、多くのビジネスアプリケーションをサポートする。近年,大規模未ラベル文書データセットの自己教師型学習手法が,自己教師型学習モデルによるアノテーションの取り組みの軽減に向けて,有望な方向を導いてきた。しかし、既存の文書事前学習手法のほとんどは依然として言語に支配されている。文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。各入力要素は、入力された文書画像の意味領域から単語と視覚的特徴から構成される。 udocの重要な特徴は、3つの自己教師付き損失を利用して汎用表現を学び、表現をモデル文に奨励し、類似性を学習し、モダリティを整合させることである。広範な経験的分析は、事前学習手順がより良いジョイント表現を学習し、下流タスクを改善することを証明している。

関連論文リスト

DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral [11.336757553731639]
多くのダウンストリームタスクにおいて、ドメイン固有の画像ベースのドキュメントから構造化されたデータを取得することが不可欠である。多くの文書は機械可読テキストではなく画像として存在し、自動抽出システムの訓練には人間のアノテーションが必要である。初となるHuman-in-the-Spiral補助文書アノテーションプラットフォームDocSpiralについて述べる。
論文参考訳（メタデータ） (2025-05-06T06:02:42Z)
DoPTA: Improving Document Layout Analysis using Patch-Text Alignment [3.3181276611945267]
本稿では,文書画像のテキスト情報を利用した視覚的タスクの性能向上を目的とした,新しい画像テキストアライメント手法を提案する。本手法で訓練した文書エンコーダモデルDoPTAは,OCRを必要とせず,幅広い文書イメージ理解タスクにおいて高い性能を示す。 DoPTAはまた、D4LAと2つの挑戦的なドキュメントビジュアル分析ベンチマークであるFUNSDで、新しい最先端のアート結果も設定している。
論文参考訳（メタデータ） (2024-12-17T13:26:31Z)
DocFusion: A Unified Framework for Document Parsing Tasks [22.916911092946897]
DocFusionは0.28Bパラメータしか持たない軽量な生成モデルである。タスク表現を統一し、改善された目的関数を通して協調訓練を行う。
論文参考訳（メタデータ） (2024-12-17T03:20:00Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文参考訳（メタデータ） (2024-03-21T09:25:24Z)
In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文参考訳（メタデータ） (2023-10-16T17:57:12Z)
SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文参考訳（メタデータ） (2023-05-01T12:47:55Z)
Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding [72.95838931445498]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文参考訳（メタデータ） (2022-06-27T09:58:34Z)
SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-06-07T04:19:49Z)
Towards a Multi-modal, Multi-task Learning based Pre-training Framework for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文参考訳（メタデータ） (2020-09-30T05:39:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。