論文の概要: Few-shot Multimodal Multitask Multilingual Learning
- arxiv url: http://arxiv.org/abs/2303.12489v1
- Date: Sun, 19 Feb 2023 03:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 03:18:13.161333
- Title: Few-shot Multimodal Multitask Multilingual Learning
- Title(参考訳): マルチモーダルマルチタスク多言語学習
- Authors: Aman Chadha, Vinija Jain
- Abstract要約: 我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While few-shot learning as a transfer learning paradigm has gained
significant traction for scenarios with limited data, it has primarily been
explored in the context of building unimodal and unilingual models.
Furthermore, a significant part of the existing literature in the domain of
few-shot multitask learning perform in-context learning which requires manually
generated prompts as the input, yielding varying outcomes depending on the
level of manual prompt-engineering. In addition, in-context learning suffers
from substantial computational, memory, and storage costs which eventually
leads to high inference latency because it involves running all of the prompt's
examples through the model every time a prediction is made. In contrast,
methods based on the transfer learning via the fine-tuning paradigm avoid the
aforementioned issues at a one-time cost of fine-tuning weights on a per-task
basis. However, such methods lack exposure to few-shot multimodal multitask
learning. In this paper, we propose few-shot learning for a multimodal
multitask multilingual (FM3) setting by adapting pre-trained vision and
language models using task-specific hypernetworks and contrastively fine-tuning
them to enable few-shot learning. FM3's architecture combines the best of both
worlds of in-context and fine-tuning based learning and consists of three major
components: (i) multimodal contrastive fine-tuning to enable few-shot learning,
(ii) hypernetwork task adaptation to perform multitask learning, and (iii)
task-specific output heads to cater to a plethora of diverse tasks. FM3 learns
the most prominent tasks in the vision and language domains along with their
intersections, namely visual entailment (VE), visual question answering (VQA),
and natural language understanding (NLU) tasks such as neural entity
recognition (NER) and the GLUE benchmark including QNLI, MNLI, QQP, and SST-2.
- Abstract(参考訳): 移行学習のパラダイムとしての少数ショット学習は、限られたデータを持つシナリオにおいて大きな牽引力を得てきたが、主に非モーダルモデルと非言語モデルの構築の文脈で検討されてきた。
さらに、数発のマルチタスク学習領域における既存の文献の大部分は、入力として手動で生成されたプロンプトを必要とするコンテキスト内学習を行い、手動プロンプトエンジニアリングのレベルによって異なる結果をもたらす。
さらに、インコンテキスト学習は、計算、メモリ、ストレージの大幅なコストに悩まされており、予測が行われる度にモデルを通じてプロンプトの例をすべて実行するため、推論レイテンシが高くなる。
対照的に、微調整パラダイムによる伝達学習に基づく手法は、上記の問題をタスク毎の微調整重量の1回コストで回避する。
しかし,このような手法はマルチタスク学習に欠かせない。
本稿では,タスク固有のハイパーネットワークを用いて事前学習された視覚モデルと言語モデルを適用し,それと対比的に微調整することで,マルチモーダルマルチタスクマルチリンガル(fm3)設定のための少数ショット学習を提案する。
FM3のアーキテクチャは、コンテキスト内および微調整ベースの学習の両世界の長所を結合し、3つの主要なコンポーネントから構成される。
(i)単発学習を可能にするマルチモーダルコントラスト微調整
(二)マルチタスク学習のためのハイパーネットワークタスク適応、及び
(iii)タスク固有の出力は、多種多様なタスクに対応する。
FM3は視覚と言語領域における最も顕著なタスク、すなわち視覚的包摂(VE)、視覚的質問応答(VQA)、ニューラルエンティティ認識(NER)やQNLI、MNLI、QQP、SST-2を含むGLUEベンチマークなどの自然言語理解(NLU)タスクを学習する。
関連論文リスト
- Generative Multimodal Models are In-Context Learners [62.31022638619485]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - In-context Learning Distillation: Transferring Few-shot Learning Ability
of Pre-trained Language Models [55.78264509270503]
そこで本研究では,大規模モデルから小型モデルへ,文脈内数ショット学習能力を移行するために,文脈内学習蒸留を導入する。
メタ・イン・コンテクスト・タニング(Meta-ICT)とマルチタスク・イン・コンテクスト・タニング(Multitask-ICT)の2つの異なる学習パラダイムの下で、イン・コンテクスト・ラーニング・蒸留を行う。
実験と分析により,マルチタスクICTパラダイムの下で,文脈内学習の目的と言語モデリングの目的が相補的であることが明らかとなった。
論文 参考訳(メタデータ) (2022-12-20T22:11:35Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [56.628198024857056]
本稿では,複数目的の複数ショットタスクに対して,事前学習した視覚言語モデルを同時に微調整する手法を提案する。
実験では、SoftCPTは、代表的なシングルタスクプロンプトチューニング手法であるCoOpを大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Multi-Task Learning for Visual Scene Understanding [7.191593674138455]
この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。
マルチタスク学習の重要な側面に対処するいくつかの手法を提案する。
その結果,マルチタスク学習の最先端にいくつかの進歩が見られた。
論文 参考訳(メタデータ) (2022-03-28T16:57:58Z) - HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks [38.43269863509866]
パラメータ効率のよい微調整をいかに行うかは、素早い移動学習と展開においてかなり重要になっている。
我々は、純粋言語とV&Lタスクの両方で効果的に機能する新しいパラメータ効率変換学習フレームワークを設計する。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現している。
論文 参考訳(メタデータ) (2022-03-08T06:51:33Z) - Multi-Task Learning with Deep Neural Networks: A Survey [0.0]
マルチタスク学習(Multi-task learning、MTL)は、複数のタスクを共有モデルで同時に学習する機械学習のサブフィールドである。
深層ニューラルネットワークにおけるマルチタスク学習手法の概要を述べる。
論文 参考訳(メタデータ) (2020-09-10T19:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。