論文の概要: An Empirical Study of Training End-to-End Vision-and-Language
Transformers
- arxiv url: http://arxiv.org/abs/2111.02387v1
- Date: Wed, 3 Nov 2021 17:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 13:08:46.278746
- Title: An Empirical Study of Training End-to-End Vision-and-Language
Transformers
- Title(参考訳): エンドツーエンド視覚言語トランスフォーマの訓練に関する実証的研究
- Authors: Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan
Wang, Chenguang Zhu, Nanyun (Violet) Peng, Zicheng Liu, Michael Zeng
- Abstract要約: 我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
- 参考スコア(独自算出の注目度): 50.23532518166621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-language (VL) pre-training has proven to be highly effective on
various VL downstream tasks. While recent work has shown that fully
transformer-based VL models can be more efficient than previous
region-feature-based methods, their performance on downstream tasks are often
degraded significantly. In this paper, we present METER~(\textbf{M}ultimodal
\textbf{E}nd-to-end \textbf{T}ransform\textbf{ER}), through which we
systematically investigate how to design and pre-train a fully
transformer-based VL model in an end-to-end manner. Specifically, we dissect
the model designs along multiple dimensions: vision encoders (e.g., CLIP-ViT,
Swin transformer), text encoders (e.g., RoBERTa, DeBERTa), multimodal fusion
(e.g., merged attention vs. co-attention), architecture design (e.g.,
encoder-only vs. encoder-decoder), and pre-training objectives (e.g., masked
image modeling). We conduct comprehensive experiments on a wide range of VL
tasks, and provide insights on how to train a performant VL transformer while
maintaining fast inference speed. Notably, METER~achieves an accuracy of
77.64\% on the VQAv2 test-std set using only 4M images for pre-training,
surpassing the state-of-the-art region-feature-based VinVL model by +1.04\%,
and outperforming the previous best fully transformer-based ALBEF model by
+1.6\%.
- Abstract(参考訳): ビジョン・アンド・ランゲージ(VL)事前学習は、様々なVL下流タスクにおいて非常に効果的であることが証明されている。
近年の研究では、フルトランスフォーマーベースのVLモデルは従来のリージョン機能ベースの手法よりも効率的であることが示されているが、下流タスクの性能は著しく低下することが多い。
本稿では,METER~(\textbf{M}ultimodal \textbf{E}nd-to-end \textbf{T}ransform\textbf{ER})を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダル融合(例えば、マージアテンション対コアテンション)、アーキテクチャ設計(例えば、エンコーダのみ対エンコーダデコーダ)、事前訓練対象(例えば、マスク付き画像モデリング)など、複数の次元に沿ってモデル設計を識別する。
我々は、広範囲なVLタスクに関する総合的な実験を行い、高速な推論速度を維持しながら、性能の高いVLトランスのトレーニング方法に関する洞察を提供する。
特に、mt~achieveは、事前トレーニングに4m画像のみを使用してvqav2テスト-stdセット上で77.64\%の精度を持ち、最先端の領域機能ベースのvinvlモデルを+1.04\%上回り、以前の最高の完全トランスフォーマーベースのalbefモデルよりも+1.6\%上回る。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - VLDeformer: Learning Visual-Semantic Embeddings by Vision-Language
Transformer Decomposing [7.890230091463883]
視覚言語変換器(VL変換器)は、クロスモーダル検索において顕著な精度を示している。
本稿では,単一の画像やテキストに対して,VL変換器を個別エンコーダとして変更するための新しい視覚言語変換器分解(VLDeformer)を提案する。
論文 参考訳(メタデータ) (2021-10-20T09:00:51Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。