論文の概要: Scaling Deep Learning Computation over the Inter-Core Connected Intelligence Processor
- arxiv url: http://arxiv.org/abs/2408.04808v1
- Date: Fri, 9 Aug 2024 01:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:58:32.971199
- Title: Scaling Deep Learning Computation over the Inter-Core Connected Intelligence Processor
- Title(参考訳): コア間コネクテッドインテリジェンスプロセッサ上でのディープラーニング計算のスケーリング
- Authors: Yiqi Liu, Yuqi Xue, Yu Cheng, Lingxiao Ma, Ziming Miao, Jilong Xue, Jian Huang,
- Abstract要約: AIチップ上でコア間通信帯域とオンチップメモリを利用する最初のDLコンパイラであるT10を提案する。
T10は、オンチップメモリ消費とコア間通信オーバーヘッドのトレードオフをグローバルに最適化する。
実際のコア間接続型AIチップであるGraphcore IPUによる評価は、最大3.3$times$パフォーマンス改善を示す。
- 参考スコア(独自算出の注目度): 13.293273876476512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As AI chips incorporate numerous parallelized cores to scale deep learning (DL) computing, inter-core communication is enabled recently by employing high-bandwidth and low-latency interconnect links on the chip (e.g., Graphcore IPU). It allows each core to directly access the fast scratchpad memory in other cores, which enables new parallel computing paradigms. However, without proper support for the scalable inter-core connections in current DL compilers, it is hard for developers to exploit the benefits of this new architecture. We present T10, the first DL compiler to exploit the inter-core communication bandwidth and distributed on-chip memory on AI chips. To formulate the computation and communication patterns of tensor operators in this new architecture, T10 introduces a distributed tensor abstraction rTensor. T10 maps a DNN model to execution plans with a generalized compute-shift pattern, by partitioning DNN computation into sub-operators and mapping them to cores, so that the cores can exchange data following predictable patterns. T10 makes globally optimized trade-offs between on-chip memory consumption and inter-core communication overhead, selects the best execution plan from a vast optimization space, and alleviates unnecessary inter-core communications. Our evaluation with a real inter-core connected AI chip, the Graphcore IPU, shows up to 3.3$\times$ performance improvement, and scalability support for larger models, compared to state-of-the-art DL compilers and vendor libraries.
- Abstract(参考訳): AIチップは、多数の並列化コアを組み込んで、ディープラーニング(DL)コンピューティングをスケールしているため、近年、チップ上の高帯域幅と低レイテンシの相互接続リンク(Graphcore IPUなど)を利用することで、コア間通信が実現されている。
これにより、各コアは他のコアの高速なスクラッチパッドメモリに直接アクセスできるようになり、新たな並列コンピューティングパラダイムが実現される。
しかし、現在のDLコンパイラにおけるスケーラブルなコア間接続を適切にサポートしていないため、開発者はこの新しいアーキテクチャの利点を活用できない。
AIチップ上でコア間通信帯域とオンチップメモリを利用する最初のDLコンパイラであるT10を提案する。
このアーキテクチャでテンソル演算子の計算と通信のパターンを定式化するために、T10は分散テンソル抽象rTensorを導入した。
T10は、DNN計算をサブオペレータに分割し、コアにマッピングすることで、一般的な計算シフトパターンでDNNモデルを実行計画にマッピングし、コアが予測可能なパターンに従ってデータを交換できるようにする。
T10は、オンチップメモリ消費とコア間通信のオーバーヘッドをグローバルに最適化し、膨大な最適化空間から最高の実行計画を選択し、不要なコア間通信を緩和する。
実際のコア間接続型AIチップであるGraphcore IPUによる評価では、最先端のDLコンパイラやベンダライブラリと比較して、パフォーマンスが3.3$\times$改善され、より大きなモデルのスケーラビリティがサポートされた。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - PowerFusion: A Tensor Compiler with Explicit Data Movement Description
and Instruction-level Graph IR [10.059491353103526]
本稿では,メモリ集約演算子のための高性能コードを生成するテンソルコンパイラであるIntelliGenを提案する。
IntelliGenは計算とデータ移動の最適化の両方を考慮する。
NVIDIA GPU、AMD GPU、Cambricon MLU上でIntelliGenを評価し、平均で1.97x、2.93x、16.91x(1.28x、1.23x、2.31x)までスピードアップした。
論文 参考訳(メタデータ) (2023-07-11T03:17:40Z) - DyCL: Dynamic Neural Network Compilation Via Program Rewriting and Graph
Optimization [8.701484095864744]
Toolは、既存のDLコンパイラがDyNNをうまくコンパイルできる一般的なアプローチである。
ツールは、動的ニューラルネットワークを複数のサブニューラルネットワークに変換することで、DyNNの動的性質に取り組む。
ツールによって生成されたコンパイル可能な実行ファイルはパフォーマンスが大幅に向上し、汎用DLフレームワーク上で実行されるオリジナルのDyNNよりも1.12times$から20.21times$高速に動作する。
論文 参考訳(メタデータ) (2023-07-11T01:53:19Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。