論文の概要: Alignment-Enriched Tuning for Patch-Level Pre-trained Document Image
Models
- arxiv url: http://arxiv.org/abs/2211.14777v1
- Date: Sun, 27 Nov 2022 09:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:11:15.855358
- Title: Alignment-Enriched Tuning for Patch-Level Pre-trained Document Image
Models
- Title(参考訳): パッチレベル事前訓練ドキュメンテーション画像モデルのためのアライメント強化チューニング
- Authors: Lei Wang, Jiabang He, Xing Xu, Ning Liu, Hui Liu
- Abstract要約: 画像とテキストのアライメントは、パッチレベルの事前訓練されたドキュメントイメージモデルに有望な改善を示している。
本稿では,事前学習した文書画像モデルに基づくアライメント強化チューニング(AETNet)を用いた新しいモデルアーキテクチャを提案する。
AETNetは、3つのダウンストリームタスクにおいて、最先端のトレーニング済みモデルを一貫して上回る。
- 参考スコア(独自算出の注目度): 20.705090485941827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment between image and text has shown promising improvements on
patch-level pre-trained document image models. However, investigating more
effective or finer-grained alignment techniques during pre-training requires a
large amount of computation cost and time. Thus, a question naturally arises:
Could we fine-tune the pre-trained models adaptive to downstream tasks with
alignment objectives and achieve comparable or better performance? In this
paper, we propose a new model architecture with alignment-enriched tuning
(dubbed AETNet) upon pre-trained document image models, to adapt downstream
tasks with the joint task-specific supervised and alignment-aware contrastive
objective. Specifically, we introduce an extra visual transformer as the
alignment-ware image encoder and an extra text transformer as the
alignment-ware text encoder before multimodal fusion. We consider alignment in
the following three aspects: 1) document-level alignment by leveraging the
cross-modal and intra-modal contrastive loss; 2) global-local alignment for
modeling localized and structural information in document images; and 3)
local-level alignment for more accurate patch-level information. Experiments on
various downstream tasks show that AETNet can achieve state-of-the-art
performance on various downstream tasks. Notably, AETNet consistently
outperforms state-of-the-art pre-trained models, such as LayoutLMv3 with
fine-tuning techniques, on three different downstream tasks.
- Abstract(参考訳): 画像とテキストのアライメントは、パッチレベルの事前訓練された文書イメージモデルに有望な改善を示している。
しかしながら、事前トレーニング中のより効果的で細かいアライメント技術を調査するには、大量の計算コストと時間が必要となる。
トレーニング済みのモデルを、アライメントの目的を持った下流タスクに適応させ、同等あるいはより良いパフォーマンスを達成することができるだろうか?
本稿では,事前訓練された文書画像モデルに基づくアライメント強化チューニング(AETNet)を用いた新しいモデルアーキテクチャを提案する。
具体的には,アライメントウェア画像エンコーダとしての余分な視覚トランスと,マルチモーダル融合前のアライメントウェアテキストエンコーダとしての余分なテキストトランスについて紹介する。
私たちは以下の3つの側面で整合性を考える。
1) クロスモーダル及びイントラモーダルコントラスト損失を利用した文書レベルのアライメント
2) 文書画像における局所的及び構造的情報をモデル化するためのグローバル局所的アライメント
3)より正確なパッチレベル情報に対する局所レベルアライメント。
様々なダウンストリームタスクの実験は、AETNetが様々なダウンストリームタスクで最先端のパフォーマンスを達成できることを示している。
特に、AETNetは3つの異なる下流タスクにおいて、LayoutLMv3のような最先端の事前訓練されたモデルよりも一貫して優れている。
関連論文リスト
- A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。