論文の概要: MLP Architectures for Vision-and-Language Modeling: An Empirical Study
- arxiv url: http://arxiv.org/abs/2112.04453v1
- Date: Wed, 8 Dec 2021 18:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 13:49:13.606086
- Title: MLP Architectures for Vision-and-Language Modeling: An Empirical Study
- Title(参考訳): 視覚・言語モデリングのためのMLPアーキテクチャ:実証的研究
- Authors: Yixin Nie, Linjie Li, Zhe Gan, Shuohang Wang, Chenguang Zhu, Michael
Zeng, Zicheng Liu, Mohit Bansal, Lijuan Wang
- Abstract要約: 視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
- 参考スコア(独自算出の注目度): 91.6393550858739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate the first empirical study on the use of MLP architectures for
vision-and-language (VL) fusion. Through extensive experiments on 5 VL tasks
and 5 robust VQA benchmarks, we find that: (i) Without pre-training, using MLPs
for multimodal fusion has a noticeable performance gap compared to
transformers; (ii) However, VL pre-training can help close the performance gap;
(iii) Instead of heavy multi-head attention, adding tiny one-head attention to
MLPs is sufficient to achieve comparable performance to transformers. Moreover,
we also find that the performance gap between MLPs and transformers is not
widened when being evaluated on the harder robust VQA benchmarks, suggesting
using MLPs for VL fusion can generalize roughly to a similar degree as using
transformers. These results hint that MLPs can effectively learn to align
vision and text features extracted from lower-level encoders without heavy
reliance on self-attention. Based on this, we ask an even bolder question: can
we have an all-MLP architecture for VL modeling, where both VL fusion and the
vision encoder are replaced with MLPs? Our result shows that an all-MLP VL
model is sub-optimal compared to state-of-the-art full-featured VL models when
both of them get pre-trained. However, pre-training an all-MLP can surprisingly
achieve a better average score than full-featured transformer models without
pre-training. This indicates the potential of large-scale pre-training of
MLP-like architectures for VL modeling and inspires the future research
direction on simplifying well-established VL modeling with less inductive
design bias. Our code is publicly available at:
https://github.com/easonnie/mlp-vil
- Abstract(参考訳): 視覚・言語融合(VL)におけるMLPアーキテクチャの利用に関する最初の実証的研究を開始する。
5つのVLタスクと5つの堅牢なVQAベンチマークに関する広範な実験により、以下のことが判明した。
(i)事前学習なしでは、マルチモーダル核融合にMLPを使うことは、トランスに比べて顕著な性能差がある。
しかし、VL事前学習はパフォーマンスのギャップを埋めるのに役立ちます。
(iii)マルチヘッドの注目ではなく、mlpに小さなワンヘッドの注意を加えることでトランスフォーマーに匹敵する性能を実現するのに十分である。
さらに,より強靭なVQAベンチマークで評価すると,MPPとトランスフォーマーのパフォーマンスギャップは拡大せず,VL融合におけるMPPの使用はトランスフォーマーとほぼ同様の程度に一般化できることが示唆された。
これらの結果から,mlpは低レベルエンコーダから抽出した視覚特徴やテキスト特徴を,自己着脱に重きを置くことなく効果的に調整できることが示唆された。
VLモデリングのためのオールMLPアーキテクチャは、VL融合とビジョンエンコーダの両方をMLPに置き換えることができるのか?
以上の結果から,全MLP VLモデルと最先端のフル機能VLモデルとの差は,両者が事前訓練を受けた場合に比べて小さいことがわかった。
しかし、全mlpの事前トレーニングは、事前トレーニングなしで全機能トランスフォーマーモデルよりも驚くほど良い平均スコアが得られる。
このことは、VLモデリングのためのMLP様アーキテクチャの大規模事前学習の可能性を示し、より帰納的設計バイアスの少ない確立されたVLモデリングを簡素化するための今後の研究の方向性を示唆している。
私たちのコードは、https://github.com/easonnie/mlp-vilで公開されています。
関連論文リスト
- MLPs Learn In-Context on Regression and Classification Tasks [28.13046236900491]
In-context Learning (ICL) はしばしばトランスフォーマーモデルのユニークな特徴であると考えられている。
マルチ層パーセプトロン(MLP)もコンテキスト内で学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-24T15:04:36Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Pay Attention to MLPs [84.54729425918164]
gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。
我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。
一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
論文 参考訳(メタデータ) (2021-05-17T17:55:04Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。