論文の概要: Few-shot Multimodal Multitask Multilingual Learning
- arxiv url: http://arxiv.org/abs/2303.12489v1
- Date: Sun, 19 Feb 2023 03:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 03:18:13.161333
- Title: Few-shot Multimodal Multitask Multilingual Learning
- Title(参考訳): マルチモーダルマルチタスク多言語学習
- Authors: Aman Chadha, Vinija Jain
- Abstract要約: 我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While few-shot learning as a transfer learning paradigm has gained
significant traction for scenarios with limited data, it has primarily been
explored in the context of building unimodal and unilingual models.
Furthermore, a significant part of the existing literature in the domain of
few-shot multitask learning perform in-context learning which requires manually
generated prompts as the input, yielding varying outcomes depending on the
level of manual prompt-engineering. In addition, in-context learning suffers
from substantial computational, memory, and storage costs which eventually
leads to high inference latency because it involves running all of the prompt's
examples through the model every time a prediction is made. In contrast,
methods based on the transfer learning via the fine-tuning paradigm avoid the
aforementioned issues at a one-time cost of fine-tuning weights on a per-task
basis. However, such methods lack exposure to few-shot multimodal multitask
learning. In this paper, we propose few-shot learning for a multimodal
multitask multilingual (FM3) setting by adapting pre-trained vision and
language models using task-specific hypernetworks and contrastively fine-tuning
them to enable few-shot learning. FM3's architecture combines the best of both
worlds of in-context and fine-tuning based learning and consists of three major
components: (i) multimodal contrastive fine-tuning to enable few-shot learning,
(ii) hypernetwork task adaptation to perform multitask learning, and (iii)
task-specific output heads to cater to a plethora of diverse tasks. FM3 learns
the most prominent tasks in the vision and language domains along with their
intersections, namely visual entailment (VE), visual question answering (VQA),
and natural language understanding (NLU) tasks such as neural entity
recognition (NER) and the GLUE benchmark including QNLI, MNLI, QQP, and SST-2.
- Abstract(参考訳): 移行学習のパラダイムとしての少数ショット学習は、限られたデータを持つシナリオにおいて大きな牽引力を得てきたが、主に非モーダルモデルと非言語モデルの構築の文脈で検討されてきた。
さらに、数発のマルチタスク学習領域における既存の文献の大部分は、入力として手動で生成されたプロンプトを必要とするコンテキスト内学習を行い、手動プロンプトエンジニアリングのレベルによって異なる結果をもたらす。
さらに、インコンテキスト学習は、計算、メモリ、ストレージの大幅なコストに悩まされており、予測が行われる度にモデルを通じてプロンプトの例をすべて実行するため、推論レイテンシが高くなる。
対照的に、微調整パラダイムによる伝達学習に基づく手法は、上記の問題をタスク毎の微調整重量の1回コストで回避する。
しかし,このような手法はマルチタスク学習に欠かせない。
本稿では,タスク固有のハイパーネットワークを用いて事前学習された視覚モデルと言語モデルを適用し,それと対比的に微調整することで,マルチモーダルマルチタスクマルチリンガル(fm3)設定のための少数ショット学習を提案する。
FM3のアーキテクチャは、コンテキスト内および微調整ベースの学習の両世界の長所を結合し、3つの主要なコンポーネントから構成される。
(i)単発学習を可能にするマルチモーダルコントラスト微調整
(二)マルチタスク学習のためのハイパーネットワークタスク適応、及び
(iii)タスク固有の出力は、多種多様なタスクに対応する。
FM3は視覚と言語領域における最も顕著なタスク、すなわち視覚的包摂(VE)、視覚的質問応答(VQA)、ニューラルエンティティ認識(NER)やQNLI、MNLI、QQP、SST-2を含むGLUEベンチマークなどの自然言語理解(NLU)タスクを学習する。
関連論文リスト
- Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - In-context Learning Distillation: Transferring Few-shot Learning Ability
of Pre-trained Language Models [55.78264509270503]
そこで本研究では,大規模モデルから小型モデルへ,文脈内数ショット学習能力を移行するために,文脈内学習蒸留を導入する。
メタ・イン・コンテクスト・タニング(Meta-ICT)とマルチタスク・イン・コンテクスト・タニング(Multitask-ICT)の2つの異なる学習パラダイムの下で、イン・コンテクスト・ラーニング・蒸留を行う。
実験と分析により,マルチタスクICTパラダイムの下で,文脈内学習の目的と言語モデリングの目的が相補的であることが明らかとなった。
論文 参考訳(メタデータ) (2022-12-20T22:11:35Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Multi-Task Learning for Visual Scene Understanding [7.191593674138455]
この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。
マルチタスク学習の重要な側面に対処するいくつかの手法を提案する。
その結果,マルチタスク学習の最先端にいくつかの進歩が見られた。
論文 参考訳(メタデータ) (2022-03-28T16:57:58Z) - Multi-Task Learning with Deep Neural Networks: A Survey [0.0]
マルチタスク学習(Multi-task learning、MTL)は、複数のタスクを共有モデルで同時に学習する機械学習のサブフィールドである。
深層ニューラルネットワークにおけるマルチタスク学習手法の概要を述べる。
論文 参考訳(メタデータ) (2020-09-10T19:31:04Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。