論文の概要: An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training
- arxiv url: http://arxiv.org/abs/2306.17165v1
- Date: Thu, 29 Jun 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:10:34.649441
- Title: An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training
- Title(参考訳): マルチタスク不均質学習による高能率汎用モジュラビジョンモデル
- Authors: Zitian Chen, Mingyu Ding, Yikang Shen, Wei Zhan, Masayoshi Tomizuka,
Erik Learned-Miller, Chuang Gan
- Abstract要約: 本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
- 参考スコア(独自算出の注目度): 79.78201886156513
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present a model that can perform multiple vision tasks and can be adapted
to other downstream tasks efficiently. Despite considerable progress in
multi-task learning, most efforts focus on learning from multi-label data: a
single image set with multiple task labels. Such multi-label data sets are
rare, small, and expensive. We say heterogeneous to refer to image sets with
different task labels, or to combinations of single-task datasets. Few have
explored training on such heterogeneous datasets. General-purpose vision models
are still dominated by single-task pretraining, and it remains unclear how to
scale up multi-task models by leveraging mainstream vision datasets designed
for different purposes. The challenges lie in managing large intrinsic
differences among vision tasks, including data distribution, architectures,
task-specific modules, dataset scales, and sampling strategies. To address
these challenges, we propose to modify and scale up mixture-of-experts (MoE)
vision transformers, so that they can simultaneously learn classification,
detection, and segmentation on diverse mainstream vision datasets including
ImageNet, COCO, and ADE20K. Our approach achieves comparable results to
single-task state-of-the-art models and demonstrates strong generalization on
downstream tasks. Due to its emergent modularity, this general-purpose model
decomposes into high-performing components, efficiently adapting to downstream
tasks. We can fine-tune it with fewer training parameters, fewer model
parameters, and less computation. Additionally, its modularity allows for easy
expansion in continual-learning-without-forgetting scenarios. Finally, these
functions can be controlled and combined to meet various demands of downstream
tasks.
- Abstract(参考訳): 複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
マルチタスク学習の大幅な進歩にもかかわらず、ほとんどの取り組みはマルチラベルデータから学ぶことに焦点を当てている。
このようなマルチラベルデータセットはレアで、小さく、高価である。
異種とは、異なるタスクラベルを持つイメージセットや、単一タスクデータセットの組み合わせを指す。
このような異種データセットのトレーニングを検討する人は少ない。
汎用ビジョンモデルは依然としてシングルタスク事前トレーニングに支配されており、異なる目的のために設計されたメインストリームのビジョンデータセットを活用することでマルチタスクモデルのスケールアップ方法が不明である。
課題は、データ分散、アーキテクチャ、タスク固有のモジュール、データセットスケール、サンプリング戦略など、ビジョンタスクの内在的な大きな違いを管理することである。
これらの課題に対処するため,我々は,imagenet,coco,ade20kなどの多種多様な主流ビジョンデータセットの分類,検出,セグメンテーションを同時に学習できるように,moe(mixed-of-experts)ビジョントランスフォーマーを修正し,スケールアップすることを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を示す。
創発的なモジュラリティのため、この汎用モデルは高性能コンポーネントに分解され、下流タスクに効率的に適応する。
トレーニングパラメータが少なく、モデルパラメータも少なく、計算量も少なくなります。
さらに、モジュール性により、継続学習のシナリオをフォゲッティングなしで簡単に拡張できる。
最後に、これらの関数を制御および組み合わせることで、下流タスクのさまざまな要求を満たすことができる。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文 参考訳(メタデータ) (2023-12-25T09:32:28Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - The Effect of Diversity in Meta-Learning [79.56118674435844]
少ないショット学習は、少数の例から見れば、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では,タスク分布がモデルの性能に重要な役割を担っていることが示されている。
タスクの多様性がメタ学習アルゴリズムに与える影響を評価するために,多種多様なモデルとデータセットのタスク分布について検討する。
論文 参考訳(メタデータ) (2022-01-27T19:39:07Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.0913507142036]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。
1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。
共同学習はシンプルで実践的であることを示す。
論文 参考訳(メタデータ) (2021-11-25T10:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。