論文の概要: Inter-Layer Scheduling Space Exploration for Multi-model Inference on
Heterogeneous Chiplets
- arxiv url: http://arxiv.org/abs/2312.09401v1
- Date: Thu, 14 Dec 2023 23:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:36:04.865600
- Title: Inter-Layer Scheduling Space Exploration for Multi-model Inference on
Heterogeneous Chiplets
- Title(参考訳): 異種チップレット上のマルチモデル推論のための層間スケジューリング空間探索
- Authors: Mohanad Odema, Hyoukjun Kwon, Mohammad Abdullah Al Faruque
- Abstract要約: ヘテロジニアスMCM加速器のための高度なスケジューリングフレームワークを開発する。
GPT-2 と ResNet-50 の 4-chiplet システム上での実験では,スループットとエネルギー効率が2.2倍,1.9倍に向上した。
- 参考スコア(独自算出の注目度): 15.24495231307868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address increasing compute demand from recent multi-model workloads with
heavy models like large language models, we propose to deploy heterogeneous
chiplet-based multi-chip module (MCM)-based accelerators. We develop an
advanced scheduling framework for heterogeneous MCM accelerators that
comprehensively consider complex heterogeneity and inter-chiplet pipelining.
Our experiments using our framework on GPT-2 and ResNet-50 models on a
4-chiplet system have shown upto 2.2x and 1.9x increase in throughput and
energy efficiency, compared to a monolithic accelerator with an optimized
output-stationary dataflow.
- Abstract(参考訳): 大規模言語モデルのような重モデルによる最近のマルチモデルワークロードの計算需要の増加に対処するため、異種チップレットベースのマルチチップモジュール(MCM)ベースのアクセラレータをデプロイすることを提案する。
複素不均一性およびキプルト間パイプライン化を包括的に検討するヘテロジニアスMCM加速器のための高度なスケジューリングフレームワークを開発した。
GPT-2 と ResNet-50 の 4-chiplet システム上でのフレームワークを用いた実験により,出力定常データフローを最適化したモノリシック加速器と比較して,スループットとエネルギー効率は 2.2 倍に向上した。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Rapid and Power-Aware Learned Optimization for Modular Receive Beamforming [27.09017677987757]
マルチインプット・マルチアウトプット(MIMO)システムは無線通信技術において重要な役割を果たす。
モジュールハイブリッドシステムにおけるビームフォーミングのための電力指向最適化アルゴリズムを提案する。
低分解能位相シフトによる計算の高速化を通じて、学習者によって効率の良いビームフォーミングがいかに促進されるかを示す。
論文 参考訳(メタデータ) (2024-08-01T10:19:25Z) - SCAR: Scheduling Multi-Model AI Workloads on Heterogeneous Multi-Chiplet Module Accelerators [12.416683044819955]
最近の大規模言語モデルのような重モデルによるマルチモデルワークロードは、ハードウェアにおける計算とメモリの要求を大幅に増加させた。
このような要求に対処するため、スケーラブルなハードウェアアーキテクチャを設計することが重要な問題となった。
我々は,巨大なスケジューリング空間をナビゲートするスケジューラのセットを開発し,それらをスケジューラであるSCARに符号化する。
論文 参考訳(メタデータ) (2024-05-01T18:02:25Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Proximal Policy Optimization-based Transmit Beamforming and Phase-shift
Design in an IRS-aided ISAC System for the THz Band [90.45915557253385]
テラヘルツ(THz)帯で動作するIRS支援統合センシング・通信(ISAC)システムを提案し,システム容量を最大化する。
透過ビームフォーミングと位相シフト設計はエルゴード制約を伴う普遍最適化問題に変換される。
論文 参考訳(メタデータ) (2022-03-21T09:15:18Z) - Data-Driven Deep Learning Based Hybrid Beamforming for Aerial Massive
MIMO-OFDM Systems with Implicit CSI [29.11998008894847]
本稿では,データ駆動型深層学習に基づく統合ハイブリッドビームフォーミングフレームワークを提案する。
TDDシステムでは、提案されたDLベースのアプローチは、E2Eニューラルネットワークとして、アップリンクパイロットの組み合わせとダウンリンクハイブリッドビームフォーミングモジュールを共同でモデル化する。
FDDシステムにおいて、我々は、E2Eニューラルネットワークとして、ダウンリンクパイロットトランスミッション、アップリンクCSIフィードバック、およびダウンリンクハイブリッドビームフォーミングモジュールを共同でモデル化する。
論文 参考訳(メタデータ) (2022-01-18T07:21:00Z) - SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge
Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。
S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。
SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文 参考訳(メタデータ) (2021-09-08T22:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。