論文の概要: Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2204.10496v1
- Date: Fri, 22 Apr 2022 04:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 12:40:05.042763
- Title: Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks
- Title(参考訳): 視覚言語タスクのためのユニモーダルエンコーダ活用のためのマルチモーダル適応蒸留
- Authors: Zhecan Wang, Noel Codella, Yen-Chun Chen, Luowei Zhou, Xiyang Dai, Bin
Xiao, Jianwei Yang, Haoxuan You, Kai-Wei Chang, Shih-fu Chang, Lu Yuan
- Abstract要約: 視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
- 参考スコア(独自算出の注目度): 118.49566068398642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cross-modal encoders for vision-language (VL) tasks are often pretrained with
carefully curated vision-language datasets. While these datasets reach an order
of 10 million samples, the labor cost is prohibitive to scale further.
Conversely, unimodal encoders are pretrained with simpler annotations that are
less cost-prohibitive, achieving scales of hundreds of millions to billions. As
a result, unimodal encoders have achieved state-of-art (SOTA) on many
downstream tasks. However, challenges remain when applying to VL tasks. The
pretraining data is not optimal for cross-modal architectures and requires
heavy computational resources. In addition, unimodal architectures lack
cross-modal interactions that have demonstrated significant benefits for VL
tasks. Therefore, how to best leverage pretrained unimodal encoders for VL
tasks is still an area of active research. In this work, we propose a method to
leverage unimodal vision and text encoders for VL tasks that augment existing
VL approaches while conserving computational complexity. Specifically, we
propose Multimodal Adaptive Distillation (MAD), which adaptively distills
useful knowledge from pretrained encoders to cross-modal VL encoders. Second,
to better capture nuanced impacts on VL task performance, we introduce an
evaluation protocol that includes Visual Commonsense Reasoning (VCR), Visual
Entailment (SNLI-VE), and Visual Question Answering (VQA), across a variety of
data constraints and conditions of domain shift. Experiments demonstrate that
MAD leads to consistent gains in the low-shot, domain-shifted, and
fully-supervised conditions on VCR, SNLI-VE, and VQA, achieving SOTA
performance on VCR compared to other single models pretrained with image-text
data. Finally, MAD outperforms concurrent works utilizing pretrained vision
encoder from CLIP. Code will be made available.
- Abstract(参考訳): 視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
これらのデータセットは1000万サンプルのオーダーに達するが、さらなるスケールアップには労働コストがかかる。
逆に、ユニモーダルエンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
その結果、単調エンコーダは多くの下流タスクで最先端(SOTA)を達成した。
しかしながら、VLタスクに適用する際の課題は残る。
プリトレーニングデータはクロスモーダルアーキテクチャに最適ではなく、重い計算リソースを必要とする。
さらに、ユニモーダルアーキテクチャは、VLタスクに重要な利点を示す、相互モーダル相互作用を欠いている。
したがって、VLタスクのために訓練済みのユニモーダルエンコーダを最大限に活用する方法はまだ活発な研究分野である。
本稿では,計算複雑性を保ちながら既存のVLのアプローチを増強するVLタスクに対して,一元的視覚とテキストエンコーダを利用する手法を提案する。
具体的には,事前学習エンコーダからクロスモーダルVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
第2に、VLタスク性能に対するニュアンスの影響をより正確に把握するために、さまざまなデータ制約やドメインシフト条件に対して、Visual Commonsense Reasoning (VCR)、Visual Entailment (SNLI-VE)、Visual Question Answering (VQA)を含む評価プロトコルを導入する。
実験により,MADはVCR,SNLI-VE,VQAの低照度,ドメインシフト,完全教師付き条件において一貫したゲインを示し,VCR上でのSOTA性能を画像テキストデータで事前訓練された他の単一モデルと比較した。
最終的に、MADはCLIPの事前訓練されたビジョンエンコーダを使用した並行処理よりも優れている。
コードは利用可能になる。
関連論文リスト
- Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - ManagerTower: Aggregating the Insights of Uni-Modal Experts for
Vision-Language Representation Learning [73.47165576175541]
2tower Vision-Language (VL)モデルは、様々な下流タスクに有望な改善を示している。
異なるレベルの訓練済みユニモーダル専門家の洞察を収集し、組み合わせた、新しいVLモデルアーキテクチャであるManageTowerを提案する。
論文 参考訳(メタデータ) (2023-05-31T18:23:57Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。