論文の概要: Transformer is All You Need: Multimodal Multitask Learning with a
Unified Transformer
- arxiv url: http://arxiv.org/abs/2102.10772v1
- Date: Mon, 22 Feb 2021 04:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 15:04:44.283149
- Title: Transformer is All You Need: Multimodal Multitask Learning with a
Unified Transformer
- Title(参考訳): マルチモーダルなマルチタスク学習を統一トランスフォーマーで実現するtransformer
- Authors: Ronghang Hu, Amanpreet Singh
- Abstract要約: 本稿では,異なる領域にまたがるタスクを同時に学習するUnified Transformerモデルを提案する。
トランスエンコーダデコーダアーキテクチャに基づいて、UniTモデルは各入力モダリティをエンコーダでエンコーダし、各タスクで予測を行います。
モデル全体は、各タスクからの損失を伴うエンドツーエンドのトレーニングを共同で行います。
- 参考スコア(独自算出の注目度): 24.870827400461682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose UniT, a Unified Transformer model to simultaneously learn the most
prominent tasks across different domains, ranging from object detection to
language understanding and multimodal reasoning. Based on the transformer
encoder-decoder architecture, our UniT model encodes each input modality with
an encoder and makes predictions on each task with a shared decoder over the
encoded input representations, followed by task-specific output heads. The
entire model is jointly trained end-to-end with losses from each task. Compared
to previous efforts on multi-task learning with transformers, we share the same
model parameters to all tasks instead of separately fine-tuning task-specific
models and handle a much higher variety of tasks across different domains. In
our experiments, we learn 7 tasks jointly over 8 datasets, achieving comparable
performance to well-established prior work on each domain under the same
supervision with a compact set of model parameters. Code will be released in
MMF at https://mmf.sh.
- Abstract(参考訳): 本稿では,オブジェクト検出から言語理解,マルチモーダル推論まで,さまざまな領域でもっとも顕著なタスクを同時に学習する統一トランスフォーマーモデルであるunitを提案する。
変換器エンコーダ-デコーダアーキテクチャに基づいて,我々のUniTモデルは各入力モダリティをエンコーダで符号化し,共有デコーダで各タスクの予測を行い,次いでタスク固有の出力ヘッドを出力する。
モデル全体は、各タスクからの損失を伴うエンドツーエンドのトレーニングを共同で行います。
トランスフォーマーを用いたマルチタスク学習における従来の取り組みと比較して、タスク固有のモデルを個別に微調整する代わりに、同じモデルパラメータをすべてのタスクに共有し、異なるドメインにわたるより高度なタスクを処理する。
実験では、8つのデータセットで7つのタスクを共同で学習し、モデルパラメータのコンパクトなセットで同じ監督の下で各ドメイン上で確立された事前作業に匹敵するパフォーマンスを達成する。
コードはMMFでhttps://mmf.sh.comでリリースされる。
関連論文リスト
- Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene
Understanding [11.608682595506354]
マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。
従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。
異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-06-08T00:28:22Z) - DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-09T16:00:15Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface
Modeling [11.569380762858815]
VUTはVersatile UI Transformerで、マルチモーダル入力と5つの異なるタスクを同じモデルで同時に実行します。
本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。
論文 参考訳(メタデータ) (2021-12-10T17:37:26Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.0913507142036]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。
1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。
共同学習はシンプルで実践的であることを示す。
論文 参考訳(メタデータ) (2021-11-25T10:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。