論文の概要: HASCO: Towards Agile HArdware and Software CO-design for Tensor
Computation
- arxiv url: http://arxiv.org/abs/2105.01585v1
- Date: Tue, 4 May 2021 15:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 12:49:17.702459
- Title: HASCO: Towards Agile HArdware and Software CO-design for Tensor
Computation
- Title(参考訳): HASCO:テンソル計算のためのアジャイルハードウェアとソフトウェア共設計を目指して
- Authors: Qingcheng Xiao, Size Zheng, Bingzhe Wu, Pengcheng Xu, Xuehai Qian, Yun
Liang
- Abstract要約: ハードウェア/ソフトウェア(HW/SW)の共同設計はハードウェアおよびソフトウェアを一致して最適化し、良質の解決を作り出します。
密なテンソル計算に効率的なHW/SWソリューションを提供するアジャイル共同設計アプローチHASCOを提案します。
実験ではHASCOがHW/SWの共同設計により1.25Xから1.44Xのレイテンシ低減を達成した。
- 参考スコア(独自算出の注目度): 13.659476047119727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor computations overwhelm traditional general-purpose computing devices
due to the large amounts of data and operations of the computations. They call
for a holistic solution composed of both hardware acceleration and software
mapping. Hardware/software (HW/SW) co-design optimizes the hardware and
software in concert and produces high-quality solutions. There are two main
challenges in the co-design flow. First, multiple methods exist to partition
tensor computation and have different impacts on performance and energy
efficiency. Besides, the hardware part must be implemented by the intrinsic
functions of spatial accelerators. It is hard for programmers to identify and
analyze the partitioning methods manually. Second, the overall design space
composed of HW/SW partitioning, hardware optimization, and software
optimization is huge. The design space needs to be efficiently explored.
To this end, we propose an agile co-design approach HASCO that provides an
efficient HW/SW solution to dense tensor computation. We use tensor syntax
trees as the unified IR, based on which we develop a two-step approach to
identify partitioning methods. For each method, HASCO explores the hardware and
software design spaces. We propose different algorithms for the explorations,
as they have distinct objectives and evaluation costs. Concretely, we develop a
multi-objective Bayesian optimization algorithm to explore hardware
optimization. For software optimization, we use heuristic and Q-learning
algorithms. Experiments demonstrate that HASCO achieves a 1.25X to 1.44X
latency reduction through HW/SW co-design compared with developing the hardware
and software separately.
- Abstract(参考訳): テンソル計算は、大量のデータと計算の操作のために、従来の汎用コンピューティングデバイスを圧倒する。
彼らはハードウェアアクセラレーションとソフトウェアマッピングの両方からなる総合的なソリューションを求めている。
ハードウェア/ソフトウェア(HW/SW)の共同設計は、ハードウェアとソフトウェアを協調的に最適化し、高品質なソリューションを生成する。
共同設計フローには2つの大きな課題がある。
まず、テンソル計算を分割し、性能とエネルギー効率に異なる影響を与える複数の方法が存在する。
さらに、ハードウェア部分は空間加速器の固有の機能によって実装されなければならない。
プログラマが分割メソッドを手動で特定し、分析するのは困難です。
第2に、HW/SWパーティショニング、ハードウェア最適化、ソフトウェア最適化からなる全体的な設計空間は巨大である。
設計空間を効率的に探索する必要がある。
そこで本研究では,高密度テンソル計算に効率的なHW/SWソリューションを提供するアジャイル共同設計手法HASCOを提案する。
我々はテンソル構文木を統一IRとして使用し、分割法を識別するための2段階のアプローチを開発した。
各手法について、HASCOはハードウェアとソフトウェアの設計空間を探索する。
目的と評価コストが異なるため,探索のための異なるアルゴリズムを提案する。
具体的には,ハードウェア最適化のための多目的ベイズ最適化アルゴリズムを提案する。
ソフトウェア最適化にはヒューリスティックアルゴリズムとQ-ラーニングアルゴリズムを用いる。
実験により、HASCOはハードウェアとソフトウェアを別々に開発するよりも、HW/SW共同設計により1.25倍から1.44倍のレイテンシ低減を実現している。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning [49.997801914237094]
我々は、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介する。
ディープラーニング(DL)トレーニングでは、1万のPCIe A100 GPUでFire-Flyer 2をデプロイし、DGX-A100の性能評価を達成し、コストを半分に削減し、エネルギー消費を40%削減しました。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
論文 参考訳(メタデータ) (2024-08-26T10:11:56Z) - Integrated Hardware Architecture and Device Placement Search [7.620610652090732]
ディープラーニングトレーニングの分散実行には、ハードウェアアクセラレータアーキテクチャとデバイス配置戦略との動的相互作用が含まれる。
これは、最適なアーキテクチャとデバイス配置戦略を決定するための協調最適化を探求する最初の試みである。
提案手法は,最先端のTPUv4とSpotlightアクセラレーター検索フレームワークと比較して,大規模言語モデルにおいて高いスループットを実現する。
論文 参考訳(メタデータ) (2024-07-18T04:02:35Z) - An approach to performance portability through generic programming [0.0]
この研究は、低レベルおよび冗長なプログラミングツールを、C++のテンプレートメタプログラミングに基づく高レベルな汎用アルゴリズムに統合するための設計アプローチを説明する。
これにより、HPCのハードウェアの多様化期間において、科学ソフトウェアは保守性と効率が向上する。
論文 参考訳(メタデータ) (2023-11-08T21:54:43Z) - Single entanglement connection architecture between multi-layer bipartite Hardware Efficient Ansatz [18.876952671920133]
本稿では,二部構成のハードウェア効率向上のための単一絡み合い接続アーキテクチャ (SECA) を提案する。
本結果から,SECAの計算性能は,一般の完全絡み合い接続アーキテクチャ(FECA)よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-23T13:36:30Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。
問題の大きさと問題グラフの次数で指数関数的に増大する。
これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文 参考訳(メタデータ) (2022-01-06T21:02:30Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - 3-Regular 3-XORSAT Planted Solutions Benchmark of Classical and Quantum
Heuristic Optimizers [0.30586855806896046]
特定のコンピューティング集約的な課題に対処するための選択肢として、専用ハードウェアが登場した。
これらのプラットフォームには、デジタル論理の高効率ハードウェア実装から、新しいアルゴリズムを実装するアナログハードウェアの提案まで、多くの異なる特徴がある。
本研究では、解を効率的に見つけることができる線形方程式の特定のクラスの写像を用いて、これらの異なるアプローチのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2021-03-15T15:40:00Z) - Learned Hardware/Software Co-Design of Neural Accelerators [20.929918108940093]
ディープラーニングソフトウェアスタックとハードウェアアクセラレータは多様で広大な。
以前の作業では、ハードウェアアーキテクチャとは別途ソフトウェア最適化を検討し、検索スペースを効果的に削減した。
本稿では,ハードウェア/ソフトウェアの共同設計として,共同設計空間における望ましい点を自動的に識別することを目的としている。
論文 参考訳(メタデータ) (2020-10-05T15:12:52Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。