論文の概要: AutoTaskFormer: Searching Vision Transformers for Multi-task Learning
- arxiv url: http://arxiv.org/abs/2304.08756v1
- Date: Tue, 18 Apr 2023 06:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:54:02.077340
- Title: AutoTaskFormer: Searching Vision Transformers for Multi-task Learning
- Title(参考訳): AutoTaskFormer:マルチタスク学習のための視覚変換器検索
- Authors: Yang Liu, Shen Yan, Yuge Zhang, Kan Ren, Quanlu Zhang, Zebin Ren, Deng
Cai, Mi Zhang
- Abstract要約: 視覚変換器は、分類やセグメンテーションのような単一タスクにおいて優れた性能を示している。
既存のマルチタスク・ビジョン・トランスフォーマーは手作りであり、人間の専門知識に大きく依存している。
本稿では,このプロセスを自動化するために,AutoTaskFormerと呼ばれる新しいワンショットニューラルアーキテクチャ検索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.38583552145653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have shown great performance in single tasks such as
classification and segmentation. However, real-world problems are not isolated,
which calls for vision transformers that can perform multiple tasks
concurrently. Existing multi-task vision transformers are handcrafted and
heavily rely on human expertise. In this work, we propose a novel one-shot
neural architecture search framework, dubbed AutoTaskFormer (Automated
Multi-Task Vision TransFormer), to automate this process. AutoTaskFormer not
only identifies the weights to share across multiple tasks automatically, but
also provides thousands of well-trained vision transformers with a wide range
of parameters (e.g., number of heads and network depth) for deployment under
various resource constraints. Experiments on both small-scale (2-task
Cityscapes and 3-task NYUv2) and large-scale (16-task Taskonomy) datasets show
that AutoTaskFormer outperforms state-of-the-art handcrafted vision
transformers in multi-task learning. The entire code and models will be
open-sourced.
- Abstract(参考訳): ビジョントランスフォーマーは、分類やセグメンテーションのような単一のタスクで素晴らしいパフォーマンスを示している。
しかし、現実世界の問題は分離されておらず、複数のタスクを同時に実行できる視覚トランスフォーマーが要求される。
既存のマルチタスクビジョントランスフォーマーは手作りであり、人間の専門知識に大きく依存している。
本稿では,この処理を自動化するために,autotaskformer (automated multi-task vision transformer) と呼ばれる,新しいニューラルネットワーク探索フレームワークを提案する。
AutoTaskFormerは、複数のタスク間で自動的に共有する重みを識別するだけでなく、様々なリソース制約の下でデプロイするための幅広いパラメータ(例えば、頭数やネットワーク深さ)を持つ何千ものよく訓練されたビジョントランスフォーマーも提供する。
小規模(2-task Cityscapesと3-task NYUv2)と大規模(16-task Taskonomy)データセットの両方の実験は、AutoTaskFormerがマルチタスク学習における最先端の手作り視覚変換器より優れていることを示している。
コードとモデル全体がオープンソース化される。
関連論文リスト
- Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene
Understanding [11.608682595506354]
マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。
従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。
異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-06-08T00:28:22Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。