論文の概要: Foundation Model is Efficient Multimodal Multitask Model Selector
- arxiv url: http://arxiv.org/abs/2308.06262v1
- Date: Fri, 11 Aug 2023 17:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 13:17:01.183910
- Title: Foundation Model is Efficient Multimodal Multitask Model Selector
- Title(参考訳): 基礎モデルは効率的なマルチモーダルマルチタスクモデルセレクタである
- Authors: Fanqing Meng, Wenqi Shao, Zhanglin Peng, Chonghe Jiang, Kaipeng Zhang,
Yu Qiao, Ping Luo
- Abstract要約: ブルートフォースアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
マルチタスクモデルセレクタ(EMMS)を提案し,多様なラベル形式を統一的な雑音ラベル埋め込みに変換する。
EMMSは、事前訓練されたモデルの転送可能性を評価するのに十分な高速で効果的で汎用的であり、マルチタスクシナリオにおける最初のモデル選択方法である。
- 参考スコア(独自算出の注目度): 47.017463595702274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates an under-explored but important problem: given a
collection of pre-trained neural networks, predicting their performance on each
multi-modal task without fine-tuning them, such as image recognition,
referring, captioning, visual question answering, and text question answering.
A brute-force approach is to finetune all models on all target datasets,
bringing high computational costs. Although recent-advanced approaches employed
lightweight metrics to measure models' transferability,they often depend
heavily on the prior knowledge of a single task, making them inapplicable in a
multi-modal multi-task scenario. To tackle this issue, we propose an efficient
multi-task model selector (EMMS), which employs large-scale foundation models
to transform diverse label formats such as categories, texts, and bounding
boxes of different downstream tasks into a unified noisy label embedding. EMMS
can estimate a model's transferability through a simple weighted linear
regression, which can be efficiently solved by an alternating minimization
algorithm with a convergence guarantee. Extensive experiments on 5 downstream
tasks with 24 datasets show that EMMS is fast, effective, and generic enough to
assess the transferability of pre-trained models, making it the first model
selection method in the multi-task scenario. For instance, compared with the
state-of-the-art method LogME enhanced by our label embeddings, EMMS achieves
9.0\%, 26.3\%, 20.1\%, 54.8\%, 12.2\% performance gain on image recognition,
referring, captioning, visual question answering, and text question answering,
while bringing 5.13x, 6.29x, 3.59x, 6.19x, and 5.66x speedup in wall-clock
time, respectively. The code is available at
https://github.com/OpenGVLab/Multitask-Model-Selector.
- Abstract(参考訳): 本稿では,事前学習されたニューラルネットワークの集合が与えられた場合,画像認識,参照,キャプション,視覚的質問応答,テキスト質問応答などの微調整をすることなく,各マルチモーダルタスクでの性能を予測する。
強引なアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
近年のアプローチでは、モデルの転送可能性を測定するために軽量なメトリクスを使用したが、それらは単一のタスクの以前の知識に大きく依存することが多く、マルチモーダルなマルチタスクシナリオでは適用できない。
この問題に対処するために,大規模基盤モデルを用いた効率的なマルチタスクモデルセレクタ (EMMS) を提案し,様々な下流タスクの分類,テキスト,バウンディングボックスなどの多様なラベル形式を統一的なノイズラベル埋め込みに変換する。
EMMSは、単純な重み付き線形回帰によってモデルの伝達可能性を推定することができ、収束保証付き交代最小化アルゴリズムで効率的に解ける。
24のデータセットを持つ5つの下流タスクに対する大規模な実験は、EMMSが高速で効果的で、事前訓練されたモデルの転送可能性を評価するのに十分な汎用性を示している。
例えば、ラベル埋め込みによって強化された最先端のLogMEと比較すると、EMMSは9.0\%、26.3\%、20.1\%、54.8\%、12.2\%、画像認識、参照、キャプション、視覚的質問応答、テキスト質問応答において、それぞれ5.13x、6.29x、3.59x、6.19x、5.66xのスピードアップを実現している。
コードはhttps://github.com/OpenGVLab/Multitask-Model-Selectorで入手できる。
関連論文リスト
- Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - All Birds with One Stone: Multi-task Text Classification for Efficient
Inference with One Forward Pass [34.85886030306857]
Webコンテンツ分類では、Web記事のような同じ入力テキストから複数の分類タスクを予測する。
既存のマルチタスクトランスモデルは、O(N)コストでNタスクに対してNフォワードパスを実行する必要がある。
本稿では,O(1)計算コストを1つのフォワードパスのみに設定することで,高い性能を実現するスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2022-05-22T05:16:03Z) - Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning
in NLP Using Fewer Parameters & Less Data [5.689320790746046]
マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習知識を伝達するための有望な方法として登場した。
しかし、MTLは、低リソースタスクへの過度な適合、破滅的な忘れ込み、負のタスク転送といった課題に対処しなければならない。
本稿では,新しい条件付アテンション機構とタスク条件付きモジュール群からなるトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-19T02:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。