論文の概要: MARS: Exploiting Multi-Level Parallelism for DNN Workloads on Adaptive
Multi-Accelerator Systems
- arxiv url: http://arxiv.org/abs/2307.12234v1
- Date: Sun, 23 Jul 2023 05:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 17:09:38.035520
- Title: MARS: Exploiting Multi-Level Parallelism for DNN Workloads on Adaptive
Multi-Accelerator Systems
- Title(参考訳): MARS: 適応型マルチアクセラレータシステムにおけるDNNワークロードのためのマルチレベル並列処理
- Authors: Guan Shen, Jieru Zhao, Zeke Wang, Zhe Lin, Wenchao Ding, Chentao Wu,
Quan Chen, Minyi Guo
- Abstract要約: 本稿では,並列性を最大化するために,計算対応アクセラレータ選択と通信対応シャーディング戦略の適用が可能な新しいマッピングフレームワークを提案する。
その結果,MARS はベースラインと比較して DNN のワークロードの平均で32.2% のレイテンシ削減を達成でき,またヘテロジニアスモデルでは59.4% のレイテンシ削減を実現している。
- 参考スコア(独自算出の注目度): 27.490645446510033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Along with the fast evolution of deep neural networks, the hardware system is
also developing rapidly. As a promising solution achieving high scalability and
low manufacturing cost, multi-accelerator systems widely exist in data centers,
cloud platforms, and SoCs. Thus, a challenging problem arises in
multi-accelerator systems: selecting a proper combination of accelerators from
available designs and searching for efficient DNN mapping strategies. To this
end, we propose MARS, a novel mapping framework that can perform
computation-aware accelerator selection, and apply communication-aware sharding
strategies to maximize parallelism. Experimental results show that MARS can
achieve 32.2% latency reduction on average for typical DNN workloads compared
to the baseline, and 59.4% latency reduction on heterogeneous models compared
to the corresponding state-of-the-art method.
- Abstract(参考訳): ディープニューラルネットワークの急速な進化とともに、ハードウェアシステムも急速に発展している。
高いスケーラビリティと低い製造コストを達成する有望なソリューションとして、データセンター、クラウドプラットフォーム、SoCにマルチアクセラレータシステムが広く存在する。
したがって、マルチアクセラレータシステムでは、利用可能な設計からアクセラレーションの適切な組み合わせを選択し、効率的なDNNマッピング戦略を探すという、困難な問題が発生する。
この目的のために,計算対応アクセラレータ選択が可能な新しいマッピングフレームワークMARSを提案し,通信対応シャーディング戦略を適用して並列性を最大化する。
実験の結果、MARSはベースラインと比較して典型的なDNNワークロードの平均で32.2%のレイテンシ削減を実現でき、59.4%のレイテンシ削減を実現している。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。
ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。
本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Characterizing Speed Performance of Multi-Agent Reinforcement Learning [5.313762764969945]
MARL(Multi-Agent Reinforcement Learning)は、大規模AIシステムや、スマートグリッドや監視などビッグデータアプリケーションにおいて、大きな成功を収めています。
MARLアルゴリズムの既存の進歩は、エージェント間協調のための様々なメカニズムを導入して得られる報酬の改善に焦点を当てている。
我々は、MARL実装において、速度性能(すなわち、レイテンシ境界スループット)を重要な指標として分析する。
論文 参考訳(メタデータ) (2023-09-13T17:26:36Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Precision-aware Latency and Energy Balancing on Multi-Accelerator
Platforms for DNN Inference [22.9834921448069]
我々は,チップ上で異なるアクセラレーター間で細粒度マッピングを行うハードウェア認識ツールであるODiMOを提案する。
ODiMOは,手動マッピングと比較して,限界精度低下(-0.53%/-0.32%)で,最大33%/31%のエネルギー/遅延を減少させることを示した。
論文 参考訳(メタデータ) (2023-06-08T09:23:46Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - CoSA: Scheduling by Constrained Optimization for Spatial Accelerators [1.9149970150912705]
我々は、Deep Neural Networks(DNN)アクセラレーターをスケジューリングするための制約最適化に基づくアプローチであるCoSAを提案する。
探索空間をナビゲートするデザイナの手法や反復的な手法に依存する既存のアプローチとは対照的に、CoSAはスケジューリング決定を制約最適化問題として表現している。
CoSA生成スケジュールは、最大2.5xの幾何学平均で最先端のアプローチを大幅に上回ることを実証します。
論文 参考訳(メタデータ) (2021-05-05T07:17:25Z) - Distributed Multi-agent Meta Learning for Trajectory Design in Wireless
Drone Networks [151.27147513363502]
本稿では,動的無線ネットワーク環境で動作するエネルギー制約型ドローン群に対する軌道設計の問題点について検討する。
値ベース強化学習(VDRL)ソリューションとメタトレイン機構を提案する。
論文 参考訳(メタデータ) (2020-12-06T01:30:12Z) - DNA: Differentiable Network-Accelerator Co-Search [36.68587348474986]
そこで我々は,一致したネットワークやアクセラレータを自動的に検索する,差別化可能なネットワーク加速器のコサーチフレームワークであるDNAを提案する。
1)DNNアクセラレータの汎用設計スペースと、アルゴリズム探索を可能にするPyTorchなどのDNNフレームワークとの互換性。
実験およびアブレーション研究により、DNAによって生成されたマッチングネットワークと加速器は、常に最先端(SOTA)のDNNや加速器より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-28T05:57:16Z) - HAPI: Hardware-Aware Progressive Inference [18.214367595727037]
畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。
その人気にもかかわらず、CNN推論は依然として高い計算コストがかかる。
本研究は,ハイパフォーマンス・アーリーエグジット・ネットワークを創出するための新しい手法であるHAPIを提案する。
論文 参考訳(メタデータ) (2020-08-10T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。