論文の概要: ManagerTower: Aggregating the Insights of Uni-Modal Experts for
Vision-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2306.00103v1
- Date: Wed, 31 May 2023 18:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:57:28.908653
- Title: ManagerTower: Aggregating the Insights of Uni-Modal Experts for
Vision-Language Representation Learning
- Title(参考訳): ManagerTower: ビジョンランゲージ表現学習のためのユニモーダルエキスパートの洞察を集める
- Authors: Xiao Xu, Bei Li, Chenfei Wu, Shao-Yen Tseng, Anahita Bhiwandiwalla,
Shachar Rosenman, Vasudev Lal, Wanxiang Che, Nan Duan
- Abstract要約: 2tower Vision-Language (VL)モデルは、様々な下流タスクに有望な改善を示している。
異なるレベルの訓練済みユニモーダル専門家の洞察を収集し、組み合わせた、新しいVLモデルアーキテクチャであるManageTowerを提案する。
- 参考スコア(独自算出の注目度): 73.47165576175541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-Tower Vision-Language (VL) models have shown promising improvements on
various downstream VL tasks. Although the most advanced work improves
performance by building bridges between encoders, it suffers from ineffective
layer-by-layer utilization of uni-modal representations and cannot flexibly
exploit different levels of uni-modal semantic knowledge. In this work, we
propose ManagerTower, a novel VL model architecture that gathers and combines
the insights of pre-trained uni-modal experts at different levels. The managers
introduced in each cross-modal layer can adaptively aggregate uni-modal
semantic knowledge to facilitate more comprehensive cross-modal alignment and
fusion. ManagerTower outperforms previous strong baselines both with and
without Vision-Language Pre-training (VLP). With only 4M VLP data, ManagerTower
achieves superior performances on various downstream VL tasks, especially
79.15% accuracy on VQAv2 Test-Std, 86.56% IR@1 and 95.64% TR@1 on Flickr30K.
Code and checkpoints are available at https://github.com/LooperXX/ManagerTower.
- Abstract(参考訳): 2tower Vision-Language (VL)モデルは、様々な下流VLタスクに有望な改善を示している。
最も進んだ研究はエンコーダ間のブリッジを構築することで性能を向上させるが、一様表現の非効率な層間利用に悩まされ、異なる一様意味知識のレベルを柔軟に活用できない。
本稿では,異なるレベルの訓練済みユニモーダル専門家の洞察を収集し,組み合わせた新しいVLモデルアーキテクチャであるManageTowerを提案する。
各クロスモーダル層に導入されたマネージャは、一様意味知識を適応的に集約し、より包括的なクロスモーダルアライメントと融合を容易にする。
ManagerTowerは、Vision-Language Pre-training (VLP)の両方で、以前の強力なベースラインを上回っている。
ダウンストリームのvlタスクでは、特にvqav2テスト-stdでは79.15%、ir@1では86.56%、flickr30kでは95.64%のtr@1である。
コードとチェックポイントはhttps://github.com/LooperXX/ManagerTower.comで入手できる。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning [91.93547262073213]
近年,2towerアーキテクチャを用いた視覚言語モデル(VL)が視覚表現学習を支配している。
そこで,BridgeTowerを提案する。このBridgeTowerは,ユニモーダルエンコーダの上位層とクロスモーダルエンコーダの各層との間の接続を構築する複数のブリッジ層を提供する。
BridgeTowerは78.73%の精度を達成し、以前の最先端モデルであるMETERを1.09%上回った。
論文 参考訳(メタデータ) (2022-06-17T09:42:35Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。