論文の概要: MAGMA -- Multimodal Augmentation of Generative Models through
Adapter-based Finetuning
- arxiv url: http://arxiv.org/abs/2112.05253v1
- Date: Thu, 9 Dec 2021 23:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 01:45:35.797792
- Title: MAGMA -- Multimodal Augmentation of Generative Models through
Adapter-based Finetuning
- Title(参考訳): MAGMA --Adapter-based Finetuningによる生成モデルのマルチモーダル拡張
- Authors: Constantin Eichenberg, Sidney Black, Samuel Weinbach, Letitia
Parcalabescu, Anette Frank
- Abstract要約: MAGMAは、アダプタベースの微調整を用いて、追加のモダリティで生成言語モデルを拡張するための簡単な方法である。
視覚入力とテキスト入力の任意の組み合わせからテキストを自動回帰生成する一連のVLモデルを訓練する。
- 参考スコア(独自算出の注目度): 11.339580074756189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pretraining is fast becoming the norm in Vision-Language (VL)
modeling. However, prevailing VL approaches are limited by the requirement for
labeled data and the use of complex multi-step pretraining objectives. We
present MAGMA - a simple method for augmenting generative language models with
additional modalities using adapter-based finetuning. Building on Frozen, we
train a series of VL models that autoregressively generate text from arbitrary
combinations of visual and textual input. The pretraining is entirely
end-to-end using a single language modeling objective, simplifying optimization
compared to previous approaches. Importantly, the language model weights remain
unchanged during training, allowing for transfer of encyclopedic knowledge and
in-context learning abilities from language pretraining. MAGMA outperforms
Frozen on open-ended generative tasks, achieving state of the art results on
the OKVQA benchmark and competitive results on a range of other popular VL
benchmarks, while pretraining on 0.2% of the number of samples used to train
SimVLM.
- Abstract(参考訳): 大規模事前学習は視覚言語モデリング(VL)において急速に標準になりつつある。
しかしながら、ラベル付きデータの要求と複雑な多段階事前学習目的の使用により、VLアプローチは制限される。
magma - アダプタベースの微調整を使用して生成言語モデルを付加的なモダリティで拡張するシンプルな方法。
また,Frozen上に構築したVLモデルを用いて,視覚的入力とテキスト入力の任意の組み合わせからテキストを自動回帰生成する。
事前トレーニングは、単一の言語モデリングの目的を使ってエンドツーエンドで行われ、以前のアプローチと比較して最適化が簡単になる。
重要な点は、言語モデルの重み付けはトレーニング中も変化せず、言語前訓練から百科事典知識と文脈内学習能力の移行を可能にすることである。
MAGMAは、オープンソース生成タスクにおいてFrozenよりも優れており、OKVQAベンチマークにおける技術結果の状態を達成し、他の人気のあるVLベンチマークでの競争結果と、SimVLMのトレーニングに使用されるサンプルの0.2%を事前訓練している。
関連論文リスト
- VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。