Fugu-MT 論文翻訳(概要): Few-shot Multimodal Multitask Multilingual Learning

論文の概要: Few-shot Multimodal Multitask Multilingual Learning

arxiv url: http://arxiv.org/abs/2303.12489v1
Date: Sun, 19 Feb 2023 03:48:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-25 03:18:13.161333
Title: Few-shot Multimodal Multitask Multilingual Learning
Title（参考訳）: マルチモーダルマルチタスク多言語学習
Authors: Aman Chadha, Vinija Jain
Abstract要約: 我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。 FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While few-shot learning as a transfer learning paradigm has gained significant traction for scenarios with limited data, it has primarily been explored in the context of building unimodal and unilingual models. Furthermore, a significant part of the existing literature in the domain of few-shot multitask learning perform in-context learning which requires manually generated prompts as the input, yielding varying outcomes depending on the level of manual prompt-engineering. In addition, in-context learning suffers from substantial computational, memory, and storage costs which eventually leads to high inference latency because it involves running all of the prompt's examples through the model every time a prediction is made. In contrast, methods based on the transfer learning via the fine-tuning paradigm avoid the aforementioned issues at a one-time cost of fine-tuning weights on a per-task basis. However, such methods lack exposure to few-shot multimodal multitask learning. In this paper, we propose few-shot learning for a multimodal multitask multilingual (FM3) setting by adapting pre-trained vision and language models using task-specific hypernetworks and contrastively fine-tuning them to enable few-shot learning. FM3's architecture combines the best of both worlds of in-context and fine-tuning based learning and consists of three major components: (i) multimodal contrastive fine-tuning to enable few-shot learning, (ii) hypernetwork task adaptation to perform multitask learning, and (iii) task-specific output heads to cater to a plethora of diverse tasks. FM3 learns the most prominent tasks in the vision and language domains along with their intersections, namely visual entailment (VE), visual question answering (VQA), and natural language understanding (NLU) tasks such as neural entity recognition (NER) and the GLUE benchmark including QNLI, MNLI, QQP, and SST-2.
Abstract（参考訳）: 移行学習のパラダイムとしての少数ショット学習は、限られたデータを持つシナリオにおいて大きな牽引力を得てきたが、主に非モーダルモデルと非言語モデルの構築の文脈で検討されてきた。さらに、数発のマルチタスク学習領域における既存の文献の大部分は、入力として手動で生成されたプロンプトを必要とするコンテキスト内学習を行い、手動プロンプトエンジニアリングのレベルによって異なる結果をもたらす。さらに、インコンテキスト学習は、計算、メモリ、ストレージの大幅なコストに悩まされており、予測が行われる度にモデルを通じてプロンプトの例をすべて実行するため、推論レイテンシが高くなる。対照的に、微調整パラダイムによる伝達学習に基づく手法は、上記の問題をタスク毎の微調整重量の1回コストで回避する。しかし,このような手法はマルチタスク学習に欠かせない。本稿では,タスク固有のハイパーネットワークを用いて事前学習された視覚モデルと言語モデルを適用し,それと対比的に微調整することで,マルチモーダルマルチタスクマルチリンガル(fm3)設定のための少数ショット学習を提案する。 FM3のアーキテクチャは、コンテキスト内および微調整ベースの学習の両世界の長所を結合し、3つの主要なコンポーネントから構成される。 (i)単発学習を可能にするマルチモーダルコントラスト微調整 (二)マルチタスク学習のためのハイパーネットワークタスク適応、及び (iii)タスク固有の出力は、多種多様なタスクに対応する。 FM3は視覚と言語領域における最も顕著なタスク、すなわち視覚的包摂(VE)、視覚的質問応答(VQA)、ニューラルエンティティ認識(NER)やQNLI、MNLI、QQP、SST-2を含むGLUEベンチマークなどの自然言語理解(NLU)タスクを学習する。

関連論文リスト

M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving [48.17490295484055]
M3Netは、自動運転の検知、セグメンテーション、および3D占有率予測に同時に取り組む新しいネットワークである。 M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
論文参考訳（メタデータ） (2025-03-23T15:08:09Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Task-Attentive Transformer Architecture for Continual Learning of Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文参考訳（メタデータ） (2023-03-25T10:16:53Z)
In-context Learning Distillation: Transferring Few-shot Learning Ability of Pre-trained Language Models [55.78264509270503]
そこで本研究では,大規模モデルから小型モデルへ,文脈内数ショット学習能力を移行するために,文脈内学習蒸留を導入する。メタ・イン・コンテクスト・タニング(Meta-ICT)とマルチタスク・イン・コンテクスト・タニング(Multitask-ICT)の2つの異なる学習パラダイムの下で、イン・コンテクスト・ラーニング・蒸留を行う。実験と分析により,マルチタスクICTパラダイムの下で,文脈内学習の目的と言語モデリングの目的が相補的であることが明らかとなった。
論文参考訳（メタデータ） (2022-12-20T22:11:35Z)
FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。 FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。 3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文参考訳（メタデータ） (2022-05-12T17:59:00Z)
Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文参考訳（メタデータ） (2022-04-16T00:56:12Z)
Multi-Task Learning for Visual Scene Understanding [7.191593674138455]
この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。マルチタスク学習の重要な側面に対処するいくつかの手法を提案する。その結果,マルチタスク学習の最先端にいくつかの進歩が見られた。
論文参考訳（メタデータ） (2022-03-28T16:57:58Z)
Multi-Task Learning with Deep Neural Networks: A Survey [0.0]
マルチタスク学習(Multi-task learning、MTL)は、複数のタスクを共有モデルで同時に学習する機械学習のサブフィールドである。深層ニューラルネットワークにおけるマルチタスク学習手法の概要を述べる。
論文参考訳（メタデータ） (2020-09-10T19:31:04Z)
Reparameterizing Convolutions for Incremental Multi-Task Learning without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文参考訳（メタデータ） (2020-07-24T14:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。