論文の概要: SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators
- arxiv url: http://arxiv.org/abs/2405.00790v1
- Date: Wed, 1 May 2024 18:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 20:42:37.148002
- Title: SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators
- Title(参考訳): SCAR: 異種マルチチップモジュールアクセラレータ上でのマルチモデルAIワークロードのスケジューリング
- Authors: Mohanad Odema, Luke Chen, Hyoukjun Kwon, Mohammad Abdullah Al Faruque,
- Abstract要約: 最近の大規模言語モデルのような重モデルによるマルチモデルワークロードは、ハードウェアにおける計算とメモリの要求を大幅に増加させた。
このような要求に対処するため、スケーラブルなハードウェアアーキテクチャを設計することが重要な問題となった。
我々は,巨大なスケジューリング空間をナビゲートするスケジューラのセットを開発し,それらをパイプライン間パイプライニングのような高度な技術でスケジューラにコーデレートする。
- 参考スコア(独自算出の注目度): 12.416683044819955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging multi-model workloads with heavy models like recent large language models significantly increased the compute and memory demands on hardware. To address such increasing demands, designing a scalable hardware architecture became a key problem. Among recent solutions, the 2.5D silicon interposer multi-chip module (MCM)-based AI accelerator has been actively explored as a promising scalable solution due to their significant benefits in the low engineering cost and composability. However, previous MCM accelerators are based on homogeneous architectures with fixed dataflow, which encounter major challenges from highly heterogeneous multi-model workloads due to their limited workload adaptivity. Therefore, in this work, we explore the opportunity in the heterogeneous dataflow MCM AI accelerators. We identify the scheduling of multi-model workload on heterogeneous dataflow MCM AI accelerator is an important and challenging problem due to its significance and scale, which reaches O(10^18) scale even for a single model case on 6x6 chiplets. We develop a set of heuristics to navigate the huge scheduling space and codify them into a scheduler with advanced techniques such as inter-chiplet pipelining. Our evaluation on ten multi-model workload scenarios for datacenter multitenancy and AR/VR use-cases has shown the efficacy of our approach, achieving on average 35.3% and 31.4% less energy-delay product (EDP) for the respective applications settings compared to homogeneous baselines.
- Abstract(参考訳): 最近の大規模言語モデルのような重モデルによるマルチモデルワークロードの創出は、ハードウェアにおける計算とメモリの要求を大幅に増加させた。
このような要求に対処するため、スケーラブルなハードウェアアーキテクチャを設計することが重要な問題となった。
最近のソリューションの中で、2.5D Silicon Interposer Multi-chip Module (MCM)ベースのAIアクセラレータは、エンジニアリングコストと構成性に大きなメリットがあるため、有望なスケーラブルなソリューションとして積極的に検討されている。
しかし、従来のMCMアクセラレータは、データフローが固定された均質アーキテクチャをベースとしており、ワークロード適応性に制限があるため、高度に異質なマルチモデルワークロードによる大きな課題に直面している。
そこで本研究では、異種データフローMCMAIアクセラレーターの機会を探究する。
6x6チップレット上の単一モデルの場合であってもO(10^18)スケールに達するという、その重要性とスケールのため、不均一なデータフローMCM AIアクセラレータ上でのマルチモデルワークロードのスケジューリングは重要かつ困難な問題である。
我々は,巨大なスケジューリング空間をナビゲートするヒューリスティックのセットを開発し,それらをパイプライン間パイプライニングのような高度な技術でスケジューラに符号化する。
データセンターのマルチテナンシとAR/VRのユースケースに対する10のマルチモデルワークロードシナリオに対する評価では,同質のベースラインに比べて平均35.3%,エネルギ遅延生成物(EDP)が31.4%減少し,本手法の有効性が示された。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Efficient Multi-Task Large Model Training via Data Heterogeneity-aware Model Management [35.06717005729781]
最近の基礎モデルは、複数の機械学習(ML)タスクと複数のデータモダリティを統一されたベースモデル構造といくつかの特別なモデルコンポーネントで処理することができる。
このようなマルチタスク(MT)マルチモーダル(MM)モデルの開発は、既存のトレーニングシステムに重要なモデル管理課題をもたらす。
プロトタイプシステムを構築し,様々な大規模MT MMモデル上で評価する。
実験では,最先端のトレーニングシステムと比較して,スピードアップ比が71%まで向上し,システムの性能と効率が向上した。
論文 参考訳(メタデータ) (2024-09-05T09:10:40Z) - GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis [0.0]
マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-27T06:44:28Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Inter-Layer Scheduling Space Exploration for Multi-model Inference on
Heterogeneous Chiplets [15.24495231307868]
ヘテロジニアスMCM加速器のための高度なスケジューリングフレームワークを開発する。
GPT-2 と ResNet-50 の 4-chiplet システム上での実験では,スループットとエネルギー効率が2.2倍,1.9倍に向上した。
論文 参考訳(メタデータ) (2023-12-14T23:45:55Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - DREAM: A Dynamic Scheduler for Dynamic Real-time Multi-model ML
Workloads [8.266680870089997]
RTMMワークロードの様々な動的処理を効果的に行う新しいスケジューラDREAMを提案する。
DREAMはRTMMワークロードのユニークな要件を定量化し、定量化されたスコアを使用してスケジューリング決定を実行する。
RTMMワークロードの5つのシナリオの評価において、DREAMは、最先端のベースラインと比較して、平均幾何(80.8%、97.6%)においてUXCost全体の32.2%と50.0%削減する。
論文 参考訳(メタデータ) (2022-12-07T02:48:14Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。