論文の概要: MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for
Vision-Language Few-Shot Prompting
- arxiv url: http://arxiv.org/abs/2210.07179v1
- Date: Thu, 13 Oct 2022 17:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 13:55:56.748357
- Title: MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for
Vision-Language Few-Shot Prompting
- Title(参考訳): MAPL:一様事前学習モデルのパラメータ効率の良い適応によるビジョンランゲージFew-Shot Prompting
- Authors: Oscar Ma\~nas, Pau Rodriguez, Saba Ahmadi, Aida Nematzadeh, Yash Goyal
and Aishwarya Agrawal
- Abstract要約: 凍結した未学習の単調モデルを再使用する,単純かつパラメータ効率のよいMAPLを提案する。
MAPLは、アライメントされた画像テキストデータを用いて、ユニモーダルモデルの表現空間間の軽量なマッピングを学習する。
- 参考スコア(独自算出の注目度): 9.698144135538378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained models have proved to be remarkable zero- and
(prompt-based) few-shot learners in unimodal vision and language tasks. We
propose MAPL, a simple and parameter-efficient method that reuses frozen
pre-trained unimodal models and leverages their strong generalization
capabilities in multimodal vision-language (VL) settings. MAPL learns a
lightweight mapping between the representation spaces of unimodal models using
aligned image-text data, and can generalize to unseen VL tasks from just a few
in-context examples. The small number of trainable parameters makes MAPL
effective at low-data and in-domain learning. Moreover, MAPL's modularity
enables easy extension to other pre-trained models. Extensive experiments on
several visual question answering and image captioning benchmarks show that
MAPL achieves superior or competitive performance compared to similar methods
while training orders of magnitude fewer parameters. MAPL can be trained in
just a few hours using modest computational resources and public datasets. We
plan to release the code and pre-trained models.
- Abstract(参考訳): 大規模な事前学習されたモデルは、一様視と言語タスクにおいて目覚ましいゼロショットと(プロパントベースの)少数ショット学習者であることが証明されている。
我々は,凍結した未学習の単言語モデルを再利用し,その強力な一般化能力をマルチモーダル視覚言語(VL)設定で活用する,シンプルでパラメータ効率のよいMAPLを提案する。
MAPLは、アライメントされた画像テキストデータを用いて、ユニモーダルモデルの表現空間間の軽量なマッピングを学習し、いくつかのインコンテキスト例からVLタスクに一般化することができる。
少数のトレーニング可能なパラメータは、MAPLを低データおよびドメイン内学習に効果的にする。
さらに、MAPLのモジュラリティは他の事前訓練されたモデルへの容易に拡張できる。
いくつかの視覚的質問応答と画像キャプションベンチマークの広範囲な実験により、MAPLは類似の手法に比べて優れた、または競争的な性能を達成できる一方で、桁違いに少ないパラメータを訓練することがわかった。
maplは、控えめな計算リソースと公開データセットを使用して、わずか数時間でトレーニングできる。
コードと事前トレーニングされたモデルをリリースする予定です。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。