論文の概要: A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2110.08484v1
- Date: Sat, 16 Oct 2021 06:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 16:36:00.351371
- Title: A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models
- Title(参考訳): 良いプロンプトは、数百万のパラメータに値するか?
視覚言語モデルのための低リソースプロンプト学習
- Authors: Woojeong Jin, Yu Cheng, Yelong Shen, Weizhu Chen, Xiang Ren
- Abstract要約: FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
- 参考スコア(独自算出の注目度): 50.27305012063483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pretrained vision-language (VL) models can learn a new task with a
handful of examples or generalize to a new task without fine-tuning. However,
these gigantic VL models are hard to deploy for real-world applications due to
their impractically huge model size and slow inference speed. In this work, we
propose FewVLM, a few-shot prompt-based learner on vision-language tasks. We
pretrain a sequence-to-sequence Transformer model with both prefix language
modeling (PrefixLM) and masked language modeling (MaskedLM), and introduce
simple prompts to improve zero-shot and few-shot performance on VQA and image
captioning. Experimental results on five VQA and captioning datasets show that
\method\xspace outperforms Frozen which is 31 times larger than ours by 18.2%
point on zero-shot VQAv2 and achieves comparable results to a 246$\times$
larger model, PICa. We observe that (1) prompts significantly affect zero-shot
performance but marginally affect few-shot performance, (2) MaskedLM helps
few-shot VQA tasks while PrefixLM boosts captioning performance, and (3)
performance significantly increases when training set size is small.
- Abstract(参考訳): 大規模な事前学習型視覚言語(VL)モデルは、少数の例で新しいタスクを学習したり、微調整なしで新しいタスクに一般化することができる。
しかし、これらの巨大なVLモデルは、極めて巨大なモデルサイズと推論速度の遅いために、現実世界のアプリケーションにはデプロイが困難である。
本研究では,視覚言語タスクのプロンプトベース学習者である fewvlm を提案する。
本稿では,プレフィックス言語モデリング (PrefixLM) とマスク言語モデリング (MaskedLM) を併用したシーケンス・ツー・シーケンス・トランスフォーマモデルを事前学習し,VQAと画像キャプションにおけるゼロショットと少数ショットのパフォーマンス向上のための簡単なプロンプトを導入する。
5つのVQAおよびキャプションデータセットの実験結果から、\method\xspaceは、ゼロショットVQAv2において、我々のより31倍大きいFrozenを18.2%上回り、246$\times$大きなPICaに匹敵する結果が得られる。
その結果,(1) プロンプトはゼロショット性能に大きく影響するが,少数ショット性能にはほとんど影響しない,(2) MaskedLM は少数ショット VQA タスクを支援する一方で,PrefixLM はキャプション性能を向上し,(3) トレーニングセットのサイズが小さくなると性能が著しく向上することがわかった。
関連論文リスト
- PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。
得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文 参考訳(メタデータ) (2023-03-15T20:17:41Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。