論文の概要: HALO 1.0: A Hardware-agnostic Accelerator Orchestration Framework for
Enabling Hardware-agnostic Programming with True Performance Portability for
Heterogeneous HPC
- arxiv url: http://arxiv.org/abs/2011.10896v5
- Date: Wed, 6 Jul 2022 18:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 12:07:55.690001
- Title: HALO 1.0: A Hardware-agnostic Accelerator Orchestration Framework for
Enabling Hardware-agnostic Programming with True Performance Portability for
Heterogeneous HPC
- Title(参考訳): HALO 1.0: ハードウェア非依存型HPCのためのハードウェア非依存型プログラミングと真のパフォーマンスポータビリティを実現するハードウェア非依存型アクセラレータオーケストレーションフレームワーク
- Authors: Michael Riera, Erfan Bank Tavakoli, Masudul Hassan Quraishi, Fengbo
Ren
- Abstract要約: 本稿では,ハードウェアに依存しないアクセラレータオーケストレーション(HALO)の原則を実装した,オープンソースのマルチエージェントソフトウェアフレームワークであるHALO 1.0を提案する。
HALOはC2MPI(Computer-centric message passing interface)仕様を実装しており、不均一なアクセラレーター間でハードウェアに依存しないホストアプリケーションのポータブルな実行を可能にする。
- 参考スコア(独自算出の注目度): 7.830235086565387
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents HALO 1.0, an open-ended extensible multi-agent software
framework that implements a set of proposed hardware-agnostic accelerator
orchestration (HALO) principles. HALO implements a novel compute-centric
message passing interface (C^2MPI) specification for enabling the performance
portable execution of a hardware-agnostic host application across heterogeneous
accelerators. The experiment results of evaluating eight widely used HPC
subroutines based on Intel Xeon E5-2620 CPUs, Intel Arria 10 GX FPGAs, and
NVIDIA GeForce RTX 2080 Ti GPUs show that HALO 1.0 allows for a unified control
flow for host programs to run across all the computing devices with a
consistently top performance portability score, which is up to five orders of
magnitude higher than the OpenCL-based solution.
- Abstract(参考訳): 本稿では,ハードウェアに依存しないアクセラレータオーケストレーション(HALO)の原則を実装した,オープンな拡張可能なマルチエージェントソフトウェアフレームワークであるHALO 1.0を提案する。
haloは新しいcompute-centric message passing interface (c^2mpi)仕様を実装し、ヘテロジニアスアクセラレータ間でハードウェアに依存しないホストアプリケーションのパフォーマンスポータブルな実行を可能にする。
Intel Xeon E5-2620 CPU、Intel Arria 10 GX FPGA、NVIDIA GeForce RTX 2080 Ti GPUをベースとした8つの広く使われているHPCサブルーチンの評価実験の結果、HALO 1.0はホストプログラムが、OpenCLベースのソリューションよりも最大5桁高いパフォーマンスのポータビリティスコアで、すべてのコンピュータデバイス上で実行するための統一的な制御フローを可能にする。
関連論文リスト
- Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning [49.997801914237094]
我々は、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介する。
ディープラーニング(DL)トレーニングでは、1万のPCIe A100 GPUでFire-Flyer 2をデプロイし、DGX-A100の性能評価を達成し、コストを半分に削減し、エネルギー消費を40%削減しました。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
論文 参考訳(メタデータ) (2024-08-26T10:11:56Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - An FPGA-based Solution for Convolution Operation Acceleration [0.0]
本稿では,畳み込み動作を高速化するFPGAアーキテクチャを提案する。
プロジェクトの目的は、一度に畳み込み層を処理できるFPGA IPコアを作成することである。
論文 参考訳(メタデータ) (2022-06-09T14:12:30Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - EH-DNAS: End-to-End Hardware-aware Differentiable Neural Architecture
Search [32.23992012207146]
エンド・ツー・エンドハードウェア・アウェアDNAS(EH-DNAS)を用いて、ハードウェア効率の良いディープニューラルネットワークを様々なプラットフォームで提供する。
EH-DNASはハードウェアの性能を、カスタマイズされたアクセラレータで平均14時間、既存のハードウェアプロセッサで平均16時間改善する。
論文 参考訳(メタデータ) (2021-11-24T06:45:30Z) - Extending C++ for Heterogeneous Quantum-Classical Computing [56.782064931823015]
qcorはC++とコンパイラの実装の言語拡張で、異種量子古典プログラミング、コンパイル、単一ソースコンテキストでの実行を可能にする。
我々の研究は、量子言語で高レベルな量子カーネル(関数)を表現できる、第一種C++コンパイラを提供する。
論文 参考訳(メタデータ) (2020-10-08T12:49:07Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z) - Enabling Efficient and Flexible FPGA Virtualization for Deep Learning in
the Cloud [13.439004162406063]
FPGAは、ディープニューラルネットワーク(DNN)推論アプリケーションに低レイテンシでエネルギー効率のソリューションを提供する大きな可能性を示している。
現在、クラウド上のFPGAベースのDNNアクセラレータのほとんどは、複数のユーザがひとつのFPGAを共有するために、タイムディビジョンの多重化方式で実行されており、$sim$100 sオーバーヘッドで再コンパイルする必要がある。
論文 参考訳(メタデータ) (2020-03-26T18:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。