論文の概要: TransferDoc: A Self-Supervised Transferable Document Representation
Learning Model Unifying Vision and Language
- arxiv url: http://arxiv.org/abs/2309.05756v1
- Date: Mon, 11 Sep 2023 18:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 15:30:39.406060
- Title: TransferDoc: A Self-Supervised Transferable Document Representation
Learning Model Unifying Vision and Language
- Title(参考訳): TransferDoc: 視覚と言語を統一した自己監督型文書表現学習モデル
- Authors: Souhail Bakkali, Sanket Biswas, Zuheng Ming, Mickael Coustaty,
Mar\c{c}al Rusi\~nol, Oriol Ramos Terrades, Josep Llad\'os
- Abstract要約: TransferDocは、自己管理型で事前トレーニングされた、クロスモーダルトランスフォーマーベースのアーキテクチャである。
言語と視覚表現を統一することで、より豊かな意味概念を学ぶ。
工業的な評価シナリオにおいて、他の最先端のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 4.629032441868536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of visual document understanding has witnessed a rapid growth in
emerging challenges and powerful multi-modal strategies. However, they rely on
an extensive amount of document data to learn their pretext objectives in a
``pre-train-then-fine-tune'' paradigm and thus, suffer a significant
performance drop in real-world online industrial settings. One major reason is
the over-reliance on OCR engines to extract local positional information within
a document page. Therefore, this hinders the model's generalizability,
flexibility and robustness due to the lack of capturing global information
within a document image. We introduce TransferDoc, a cross-modal
transformer-based architecture pre-trained in a self-supervised fashion using
three novel pretext objectives. TransferDoc learns richer semantic concepts by
unifying language and visual representations, which enables the production of
more transferable models. Besides, two novel downstream tasks have been
introduced for a ``closer-to-real'' industrial evaluation scenario where
TransferDoc outperforms other state-of-the-art approaches.
- Abstract(参考訳): ビジュアル文書理解の分野は、新たな課題と強力なマルチモーダル戦略の急速な成長を目撃している。
しかし、彼らは「pre-train-then-fine-tune'」パラダイムで事前テキストの目的を学習するために大量の文書データに依存しており、実際のオンライン産業環境において顕著なパフォーマンス低下を被っている。
主な理由の1つは、文書ページ内の位置情報を抽出するOCRエンジンの過度な信頼性である。
したがって,この手法は,文書画像内でのグローバルな情報取得の欠如により,モデルの一般化性,柔軟性,堅牢性を阻害する。
3つの新しいプリテキストの目的を用いて,自己教師あり方式で事前学習したクロスモーダルトランスフォーマティブアーキテクチャであるtransferdocを提案する。
TransferDocは、言語と視覚表現を統合することで、よりリッチなセマンティックな概念を学ぶ。
さらに、2つの新しいダウンストリームタスクが、transferdocが他の最先端のアプローチよりも優れる、``closer-to-real''産業評価シナリオとして導入されている。
関連論文リスト
- SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - LayeredDoc: Domain Adaptive Document Restoration with a Layer Separation Approach [9.643486775455841]
本稿では,文書画像復元システムにおける領域適応性を向上するテキスト・グラフィック・レイヤ分離手法を提案する。
本稿では,2つのレイヤ情報を利用するLayeredDocを提案する。第1のターゲットは粗粒のグラフィックコンポーネントであり,第2のレイヤは機械印刷されたテキストコンテンツを洗練する。
本研究では,本研究のために開発された新しい実世界のデータセットであるLayeredDocDBを用いて,定性的かつ定量的にアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-12T19:41:01Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich
Document Understanding [72.95838931445498]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。