論文の概要: MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2306.01311v1
- Date: Fri, 2 Jun 2023 07:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:23:02.497076
- Title: MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models
- Title(参考訳): metavl: 言語モデルから視覚言語モデルへのコンテキスト内学習能力の移行
- Authors: Masoud Monajatipoor, Liunian Harold Li, Mozhdeh Rouhsedaghat, Lin F.
Yang, Kai-Wei Chang
- Abstract要約: 視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
- 参考スコア(独自算出の注目度): 74.89629463600978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale language models have shown the ability to adapt to a new task via
conditioning on a few demonstrations (i.e., in-context learning). However, in
the vision-language domain, most large-scale pre-trained vision-language (VL)
models do not possess the ability to conduct in-context learning. How can we
enable in-context learning for VL models? In this paper, we study an
interesting hypothesis: can we transfer the in-context learning ability from
the language domain to VL domain? Specifically, we first meta-trains a language
model to perform in-context learning on NLP tasks (as in MetaICL); then we
transfer this model to perform VL tasks by attaching a visual encoder. Our
experiments suggest that indeed in-context learning ability can be transferred
cross modalities: our model considerably improves the in-context learning
capability on VL tasks and can even compensate for the size of the model
significantly. On VQA, OK-VQA, and GQA, our method could outperform the
baseline model while having 20 times fewer parameters.
- Abstract(参考訳): 大規模言語モデルは、いくつかのデモ(インコンテキスト学習)を条件付けすることで、新しいタスクに適応する能力を示している。
しかし、視覚言語領域では、ほとんどの大規模事前学習型視覚言語(VL)モデルは、文脈内学習を行う能力を持っていない。
VLモデルのコンテキスト内学習をどのように可能か?
本稿では,言語領域からVL領域へ文脈内学習能力を移行できるのか,という興味深い仮説を考察する。
具体的には、まず言語モデルをメタトレーニングし、(MetaICLのように)NLPタスク上でコンテキスト内学習を行い、次に視覚エンコーダをアタッチしてVLタスクを実行する。
我々のモデルは、VLタスクにおける文脈内学習能力を大幅に改善し、モデルのサイズを著しく補うことができる。
VQA,OK-VQA,GQAでは,パラメータが20倍少なく,ベースラインモデルよりも優れていた。
関連論文リスト
- Driving Referring Video Object Segmentation with Vision-Language Pre-trained Models [34.37450315995176]
現在のRVOSメソッドは一般的に、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムより優れ,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - In-context Learning Distillation: Transferring Few-shot Learning Ability
of Pre-trained Language Models [55.78264509270503]
そこで本研究では,大規模モデルから小型モデルへ,文脈内数ショット学習能力を移行するために,文脈内学習蒸留を導入する。
メタ・イン・コンテクスト・タニング(Meta-ICT)とマルチタスク・イン・コンテクスト・タニング(Multitask-ICT)の2つの異なる学習パラダイムの下で、イン・コンテクスト・ラーニング・蒸留を行う。
実験と分析により,マルチタスクICTパラダイムの下で,文脈内学習の目的と言語モデリングの目的が相補的であることが明らかとなった。
論文 参考訳(メタデータ) (2022-12-20T22:11:35Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z) - How to Adapt Pre-trained Vision-and-Language Models to a Text-only
Input? [0.13706331473063876]
我々は、すでに言語理解能力にいくつかの結果がある、事前訓練されたマルチモーダル・ビジョン・アンド・ランゲージ(VL)モデルに焦点を当てる。
これらのモデルの言語的スキルを評価する上で未解決の問題は、アウト・オブ・ディストリビューションの不確実性なしにテキストのみの入力に適応する方法が確立されていないことである。
GLUEとVisual Property Norms(VPN)の評価は、VLモデルをゼロショットのテキストのみのタスクに適応させるのに対して、モデルは非ゼロショットのタスクに適応する方法に敏感でないことを示す。
論文 参考訳(メタデータ) (2022-09-19T13:00:12Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。