Fugu-MT 論文翻訳(概要): M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design

論文の概要: M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design

arxiv url: http://arxiv.org/abs/2210.14793v1
Date: Wed, 26 Oct 2022 15:40:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-27 15:07:48.967033
Title: M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design
Title（参考訳）: M$3$ViT: Model-Accelerator共設計によるマルチタスク学習のためのM$3$ViT
Authors: Hanxue Liang, Zhiwen Fan, Rishov Sarkar, Ziyu Jiang, Tianlong Chen, Kai Zou, Yu Cheng, Cong Hao, Zhangyang Wang
Abstract要約: マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
参考スコア（独自算出の注目度）: 95.41238363769892
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-task learning (MTL) encapsulates multiple learned tasks in a single model and often lets those tasks learn better jointly. However, when deploying MTL onto those real-world systems that are often resource-constrained or latency-sensitive, two prominent challenges arise: (i) during training, simultaneously optimizing all tasks is often difficult due to gradient conflicts across tasks; (ii) at inference, current MTL regimes have to activate nearly the entire model even to just execute a single task. Yet most real systems demand only one or two tasks at each moment, and switch between tasks as needed: therefore such all tasks activated inference is also highly inefficient and non-scalable. In this paper, we present a model-accelerator co-design framework to enable efficient on-device MTL. Our framework, dubbed M$^3$ViT, customizes mixture-of-experts (MoE) layers into a vision transformer (ViT) backbone for MTL, and sparsely activates task-specific experts during training. Then at inference with any task of interest, the same design allows for activating only the task-corresponding sparse expert pathway, instead of the full model. Our new model design is further enhanced by hardware-level innovations, in particular, a novel computation reordering scheme tailored for memory-constrained MTL that achieves zero-overhead switching between tasks and can scale to any number of experts. When executing single-task inference, M$^{3}$ViT achieves higher accuracies than encoder-focused MTL methods, while significantly reducing 88% inference FLOPs. When implemented on a hardware platform of one Xilinx ZCU104 FPGA, our co-design framework reduces the memory requirement by 2.4 times, while achieving energy efficiency up to 9.23 times higher than a comparable FPGA baseline. Code is available at: https://github.com/VITA-Group/M3ViT.
Abstract（参考訳）: マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。しかし、リソース制約やレイテンシに敏感な実際のシステムにMTLをデプロイする場合、2つの大きな課題が発生する。 (i) 訓練中、タスク間の勾配の衝突により、全てのタスクを同時に最適化することがしばしば困難である。 (ii)現在のmtlレジームでは、1つのタスクを実行するだけでもモデル全体を活性化する必要がある。しかし、ほとんどの実システムでは、各瞬間に1つか2つのタスクしか要求せず、必要に応じてタスクを切り替える必要がある。本稿では,デバイス上で効率的なMTLを実現するためのモデルアクセラレータ共設計フレームワークを提案する。我々のフレームワークはM$^3$ViTと呼ばれ、MTLのビジョントランスフォーマー(ViT)バックボーンにME(Mix-of-experts)層をカスタマイズし、トレーニング中にタスク固有の専門家をわずかに活性化する。興味のあるタスクを推論すると、同じ設計で、完全なモデルではなく、タスク対応のスパースエキスパートパスのみを活性化することができる。我々の新しいモデル設計は、ハードウェアレベルの革新、特に、タスク間のゼロオーバーヘッド切替を実現し、あらゆる専門家にスケール可能なメモリ制約型MTLに適した、新しい計算リオーダー方式によってさらに強化されている。シングルタスク推論を行う場合、M$^{3}$ViTはエンコーダ中心のMTL法よりも高い精度を実現し、88%のFLOPを著しく削減する。 Xilinx ZCU104 FPGAのハードウェアプラットフォームに実装した場合、我々の共同設計フレームワークは、同等のFPGAベースラインよりも最大9.23倍高いエネルギー効率を実現しつつ、メモリ要求を2.4倍削減する。コードはhttps://github.com/VITA-Group/M3ViT.comで入手できる。

関連論文リスト

Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-12T17:41:23Z)
AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。最先端の刈り取り法に比べて優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T17:19:15Z)
MT2ST: Adaptive Multi-Task to Single-Task Learning [6.185573921868495]
マルチタスク学習(MTL)における一般化とシングルタスク学習(STL)における精度のトレードオフについて,MT2ST(Multi-Task to Single-Task)フレームワークを導入して検討する。 MT2STは、マルチモーダルタスクにおけるトレーニング効率と精度を高めるために設計されており、効率的な機械学習の実践的応用としての価値を示している。
論文参考訳（メタデータ） (2024-06-26T03:12:07Z)
MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning [28.12788291168137]
複数のタスクを同時に並列に微調整できるマルチタスクファインチューニングフレームワーク MFTcoder を提案する。実験により、我々のマルチタスクファインチューニングアプローチは、単一タスクにおける個々のファインチューニングと、混合タスクにおけるファインチューニングの両方より優れていることが示された。
論文参考訳（メタデータ） (2023-11-04T02:22:40Z)
Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文参考訳（メタデータ） (2023-08-10T17:37:49Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。 AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。 Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文参考訳（メタデータ） (2023-04-17T20:17:44Z)
Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文参考訳（メタデータ） (2022-03-28T17:56:40Z)
Controllable Pareto Multi-Task Learning [55.945680594691076]
マルチタスク学習システムは,複数のタスクを同時に解決することを目的としている。固定されたモデルキャパシティでは、タスクは互いに衝突し、システムは通常、それらすべてを学ぶためにトレードオフをしなければならない。本研究では,異なるタスク間のリアルタイムなトレードオフ制御を実現するための,新しい制御可能なマルチタスク学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-10-13T11:53:55Z)
Reparameterizing Convolutions for Incremental Multi-Task Learning without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文参考訳（メタデータ） (2020-07-24T14:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。