論文の概要: Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2302.14794v1
- Date: Tue, 28 Feb 2023 17:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:13:24.612601
- Title: Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning
- Title(参考訳): マルチモーダルFew-Shot学習のためのメタラーニングによる視覚と言語モデルの構築
- Authors: Ivona Najdenkoska, Xiantong Zhen, Marcel Worring
- Abstract要約: 視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
- 参考スコア(独自算出の注目度): 38.37682598345653
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal few-shot learning is challenging due to the large domain gap
between vision and language modalities. Existing methods are trying to
communicate visual concepts as prompts to frozen language models, but rely on
hand-engineered task induction to reduce the hypothesis space. To make the
whole process learnable, we introduce a multimodal meta-learning approach.
Specifically, our approach decomposes the training of the model into a set of
related multimodal few-shot tasks. We define a meta-mapper network, acting as a
meta-learner, to efficiently bridge frozen large-scale vision and language
models and leverage their already learned capacity. By updating the learnable
parameters only of the meta-mapper, it learns to accrue shared meta-knowledge
among these tasks. Thus, it can rapidly adapt to newly presented samples with
only a few gradient updates. Importantly, it induces the task in a completely
data-driven manner, with no need for a hand-engineered task induction. We
evaluate our approach on recently proposed multimodal few-shot benchmarks,
measuring how rapidly the model can bind novel visual concepts to words and
answer visual questions by observing only a limited set of labeled examples.
The experimental results show that our meta-learning approach outperforms the
baseline across multiple datasets and various training settings while being
computationally more efficient.
- Abstract(参考訳): 視覚と言語モダリティの間に大きなドメインギャップがあるため、マルチモーダルな数ショット学習は困難である。
既存の手法は、凍結言語モデルへのプロンプトとして視覚概念を伝達しようとしているが、仮説空間を減らすために手作業によるタスク誘導に依存している。
プロセス全体を学習可能にするために,マルチモーダルメタラーニングアプローチを導入する。
具体的には、モデルのトレーニングを、関連するマルチモーダルな数ショットタスクのセットに分解する。
メタマッパーネットワークを定義し、メタリーナーとして機能し、凍結した大規模ビジョンと言語モデルを効率的に橋渡しし、既に学習済みの能力を活用する。
メタマッパーのみの学習可能なパラメータを更新することにより、これらのタスク間で共有メタ知識を取得することができる。
これにより、わずかな勾配更新だけで、新しく提示されたサンプルに迅速に適応することができる。
重要なことは、手作業によるタスク誘導を必要とせず、完全にデータ駆動の方法でタスクを誘導する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークを用いて,モデルが単語に新しい視覚概念を結合し,限られたラベル付き例のみを観察することで,視覚的疑問に答える速度を計測した。
実験の結果,我々のメタラーニングアプローチは,計算効率が向上しつつ,複数のデータセットと様々なトレーニング設定でベースラインを上回ることがわかった。
関連論文リスト
- Meta-training with Demonstration Retrieval for Efficient Few-shot
Learning [11.723856248352007]
大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。
これらのモデルはメモリと計算集約である。
本稿では,実演検索によるメタトレーニングを提案する。
論文 参考訳(メタデータ) (2023-06-30T20:16:22Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Meta-Learning via Classifier(-free) Guidance [5.812784742024491]
最先端のメタ学習技術は、目に見えないタスクへのゼロショット適応を最適化しない。
本稿では,自然言語指導によるゼロショット性能向上のためのメタ学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:09:35Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - Few-Shot Learning with a Strong Teacher [36.35502703114652]
限られたラベル付き例を使って強力な分類器を訓練することを目的としていない。
既存の多くの作業はメタラーニングアプローチを採用し、数発のタスクを順番にサンプリングし、クエリの例を分類する際の数発の学習者のパフォーマンスを最適化する。
そこで本研究では,少数の学習者を直接訓練して,強力な分類器のように動作させる新しい目標を提案する。
論文 参考訳(メタデータ) (2021-07-01T03:20:46Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z) - Meta-Baseline: Exploring Simple Meta-Learning for Few-Shot Learning [79.25478727351604]
評価基準に基づいて,分類済みモデル全体に対するメタラーニング(メタラーニング)を提案する。
我々は,この単純な手法が標準ベンチマークにおける最先端手法との競合性能を達成するのを観察する。
論文 参考訳(メタデータ) (2020-03-09T20:06:36Z) - Revisiting Meta-Learning as Supervised Learning [69.2067288158133]
メタラーニングと従来の教師付き学習の関連性を再考し,強化することで,原則的,統一的なフレームワークの提供を目指す。
タスク固有のデータセットとターゲットモデルを(機能、ラベル)サンプルとして扱うことで、多くのメタ学習アルゴリズムを教師付き学習のインスタンスに還元することができる。
この視点は、メタラーニングを直感的で実践的なフレームワークに統一するだけでなく、教師付き学習から直接洞察を伝達してメタラーニングを改善することができる。
論文 参考訳(メタデータ) (2020-02-03T06:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。