論文の概要: M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design
- arxiv url: http://arxiv.org/abs/2210.14793v1
- Date: Wed, 26 Oct 2022 15:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:07:48.967033
- Title: M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design
- Title(参考訳): M$3$ViT: Model-Accelerator共設計によるマルチタスク学習のためのM$3$ViT
- Authors: Hanxue Liang, Zhiwen Fan, Rishov Sarkar, Ziyu Jiang, Tianlong Chen,
Kai Zou, Yu Cheng, Cong Hao, Zhangyang Wang
- Abstract要約: マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
- 参考スコア(独自算出の注目度): 95.41238363769892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task learning (MTL) encapsulates multiple learned tasks in a single
model and often lets those tasks learn better jointly. However, when deploying
MTL onto those real-world systems that are often resource-constrained or
latency-sensitive, two prominent challenges arise: (i) during training,
simultaneously optimizing all tasks is often difficult due to gradient
conflicts across tasks; (ii) at inference, current MTL regimes have to activate
nearly the entire model even to just execute a single task. Yet most real
systems demand only one or two tasks at each moment, and switch between tasks
as needed: therefore such all tasks activated inference is also highly
inefficient and non-scalable. In this paper, we present a model-accelerator
co-design framework to enable efficient on-device MTL. Our framework, dubbed
M$^3$ViT, customizes mixture-of-experts (MoE) layers into a vision transformer
(ViT) backbone for MTL, and sparsely activates task-specific experts during
training. Then at inference with any task of interest, the same design allows
for activating only the task-corresponding sparse expert pathway, instead of
the full model. Our new model design is further enhanced by hardware-level
innovations, in particular, a novel computation reordering scheme tailored for
memory-constrained MTL that achieves zero-overhead switching between tasks and
can scale to any number of experts. When executing single-task inference,
M$^{3}$ViT achieves higher accuracies than encoder-focused MTL methods, while
significantly reducing 88% inference FLOPs. When implemented on a hardware
platform of one Xilinx ZCU104 FPGA, our co-design framework reduces the memory
requirement by 2.4 times, while achieving energy efficiency up to 9.23 times
higher than a comparable FPGA baseline. Code is available at:
https://github.com/VITA-Group/M3ViT.
- Abstract(参考訳): マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
しかし、リソース制約やレイテンシに敏感な実際のシステムにMTLをデプロイする場合、2つの大きな課題が発生する。
(i) 訓練中、タスク間の勾配の衝突により、全てのタスクを同時に最適化することがしばしば困難である。
(ii)現在のmtlレジームでは、1つのタスクを実行するだけでもモデル全体を活性化する必要がある。
しかし、ほとんどの実システムでは、各瞬間に1つか2つのタスクしか要求せず、必要に応じてタスクを切り替える必要がある。
本稿では,デバイス上で効率的なMTLを実現するためのモデルアクセラレータ共設計フレームワークを提案する。
我々のフレームワークはM$^3$ViTと呼ばれ、MTLのビジョントランスフォーマー(ViT)バックボーンにME(Mix-of-experts)層をカスタマイズし、トレーニング中にタスク固有の専門家をわずかに活性化する。
興味のあるタスクを推論すると、同じ設計で、完全なモデルではなく、タスク対応のスパースエキスパートパスのみを活性化することができる。
我々の新しいモデル設計は、ハードウェアレベルの革新、特に、タスク間のゼロオーバーヘッド切替を実現し、あらゆる専門家にスケール可能なメモリ制約型MTLに適した、新しい計算リオーダー方式によってさらに強化されている。
シングルタスク推論を行う場合、M$^{3}$ViTはエンコーダ中心のMTL法よりも高い精度を実現し、88%のFLOPを著しく削減する。
Xilinx ZCU104 FPGAのハードウェアプラットフォームに実装した場合、我々の共同設計フレームワークは、同等のFPGAベースラインよりも最大9.23倍高いエネルギー効率を実現しつつ、メモリ要求を2.4倍削減する。
コードはhttps://github.com/VITA-Group/M3ViT.comで入手できる。
関連論文リスト
- AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning [28.12788291168137]
複数のタスクを同時に並列に微調整できるマルチタスクファインチューニングフレームワーク MFTcoder を提案する。
実験により、我々のマルチタスクファインチューニングアプローチは、単一タスクにおける個々のファインチューニングと、混合タスクにおけるファインチューニングの両方より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-04T02:22:40Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task
Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。
AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文 参考訳(メタデータ) (2023-04-17T20:17:44Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Controllable Pareto Multi-Task Learning [55.945680594691076]
マルチタスク学習システムは,複数のタスクを同時に解決することを目的としている。
固定されたモデルキャパシティでは、タスクは互いに衝突し、システムは通常、それらすべてを学ぶためにトレードオフをしなければならない。
本研究では,異なるタスク間のリアルタイムなトレードオフ制御を実現するための,新しい制御可能なマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T11:53:55Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。