論文の概要: O2ATH: An OpenMP Offloading Toolkit for the Sunway Heterogeneous
Manycore Platform
- arxiv url: http://arxiv.org/abs/2309.04945v1
- Date: Sun, 10 Sep 2023 06:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 08:11:04.547196
- Title: O2ATH: An OpenMP Offloading Toolkit for the Sunway Heterogeneous
Manycore Platform
- Title(参考訳): O2ATH: Sunwayの異種多コアプラットフォーム用のOpenMPオフロードツールキット
- Authors: Haoran Lin and Lifeng Yan and Qixin Chang and Haitian Lu and Chenlin
Li and Quanjie He and Zeyu Song and Xiaohui Duan and Zekun Yin and Yuxuan Li
and Zhao Liu and Wei Xue and Haohuan Fu and Lin Gan and Guangwen Yang and
Weiguo Liu
- Abstract要約: O2ATHは、MPEとCPEのコードを単一のファイルで書くためのツールである。
O2ATHは、OpenMPオフロード方式で次世代のSunwayスーパーコンピュータのCPEにCESMとROMSという2つの大きなプロジェクトを移植するのに役立ちました。
実験では、カーネルのスピードアップは3倍から15倍になり、アプリケーション全体のスピードアップの3倍から6倍になる。
- 参考スコア(独自算出の注目度): 20.64737961291626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The next generation Sunway supercomputer employs the SW26010pro processor,
which features a specialized on-chip heterogeneous architecture. Applications
with significant hotspots can benefit from the great computation capacity
improvement of Sunway many-core architectures by carefully making intensive
manual many-core parallelization efforts. However, some legacy projects with
large codebases, such as CESM, ROMS and WRF, contain numerous lines of code and
do not have significant hotspots. The cost of manually porting such
applications to the Sunway architecture is almost unaffordable. To overcome
such a challenge, we have developed a toolkit named O2ATH. O2ATH forwards GNU
OpenMP runtime library calls to Sunway's Athread library, which greatly
simplifies the parallelization work on the Sunway architecture.O2ATH enables
users to write both MPE and CPE code in a single file, and parallelization can
be achieved by utilizing OpenMP directives and attributes. In practice, O2ATH
has helped us to port two large projects, CESM and ROMS, to the CPEs of the
next generation Sunway supercomputers via the OpenMP offload method. In the
experiments, kernel speedups range from 3 to 15 times, resulting in 3 to 6
times whole application speedups.Furthermore, O2ATH requires significantly
fewer code modifications compared to manually crafting CPE functions.This
indicates that O2ATH can greatly enhance development efficiency when porting or
optimizing large software projects on Sunway supercomputers.
- Abstract(参考訳): 次世代のサンウェイスーパーコンピュータはSW26010proプロセッサを採用しており、チップ上の異種アーキテクチャを特化している。
重要なホットスポットを持つアプリケーションは、手動の多コア並列化を慎重に行うことで、Sunwayの多コアアーキテクチャの計算能力を大幅に向上する利点がある。
しかし、cesm、rom、wrfのような大きなコードベースを持つレガシープロジェクトには、多くのコード行が含まれており、大きなホットスポットを持っていない。
このようなアプリケーションをSunwayアーキテクチャに手動で移植するコストは、ほとんど計り知れない。
このような課題を克服するため,我々はO2ATHというツールキットを開発した。
O2ATHは、GNU OpenMPランタイムライブラリの呼び出しをSunwayのAthreadライブラリに転送する。これは、Sunwayアーキテクチャの並列化作業を大幅に単純化し、ユーザが単一のファイルでMPPとCPEのコードを書けるようにし、OpenMPディレクティブと属性を活用することで並列化を実現する。
実際にO2ATHは、OpenMPオフロード方式で次世代のSunwayスーパーコンピュータのCPEにCESMとROMSという2つの大きなプロジェクトを移植するのに役立ちました。
実験では、カーネルのスピードアップは3倍から15倍で、アプリケーション全体のスピードアップは3倍から6倍になるが、一方で、O2ATHは手動でCPE関数を作るよりもコード修正をはるかに少なくする必要がある。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - OMPar: Automatic Parallelization with AI-Driven Source-to-Source Compilation [4.266086505323998]
本稿では,OpenMP pragmasを用いたC/C++コードの並列化を自動化するAI駆動型ツールであるOMParを紹介する。
OMParは、ループ並列化ポテンシャルを評価するOMPifyと、正確なOpenMPパグマを生成する新しい微調整モデルであるMonoCoder-OMPの2つの主要なコンポーネントを通じて、LLM(Large Language Models)を統合している。
論文 参考訳(メタデータ) (2024-09-23T07:39:01Z) - Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文 参考訳(メタデータ) (2024-02-03T06:37:50Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。
本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文 参考訳(メタデータ) (2023-10-02T16:55:19Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - QParallel: Explicit Parallelism for Programming Quantum Computers [62.10004571940546]
並列量子プログラミングのための言語拡張を提案する。
QParallelは、現在の量子プログラミング言語における並列性に関する曖昧さを取り除く。
並列化によって最も利益を上げるサブルーチンを識別し,並列領域の配置にプログラマを誘導するツールを提案する。
論文 参考訳(メタデータ) (2022-10-07T16:35:16Z) - Learning to Parallelize in a Shared-Memory Environment with Transformers [3.340971990034025]
OpenMPは共有メモリ並列化スキームを実装する最も包括的なAPIである。
多くのソース・トゥ・ソース(S2S)コンパイラが長年にわたって作成され、OpenMPディレクティブをコードに自動的に挿入するタスクをこなしてきた。
本研究では,S2Sコンパイラを完全に置き換えるために,ML技術,特に自然言語処理(NLP)の最近の進歩を活用することを提案する。
論文 参考訳(メタデータ) (2022-04-27T10:39:52Z) - Bring Your Own Codegen to Deep Learning Compiler [8.87545486816377]
本稿では,独自のコード生成ツールの開発にのみ集中できるオープンソースフレームワークを提案する。
当社のフレームワークは、柔軟で使いやすいインターフェースをユーザーに提供し、モデルを「最高の」プロセッサで実行できるセグメントに分割します。
論文 参考訳(メタデータ) (2021-05-03T17:22:25Z) - Tensor Processing Primitives: A Programming Abstraction for Efficiency
and Portability in Deep Learning Workloads [86.62083829086393]
このプロセスプリミティブ(TPP、Processing Primitives)は、高い生産性を持つDeep Learning-Workloadの効率的でポータブルな実装を目指すプログラミング抽象化である。
TPPは、高次元テンソル上の複素作用素を構成するためにビルディングブロックとして使用できる2Dテンソル作用素(または仮想ISA)のコンパクトで汎用的な集合を定義する。
我々は,スタンドアロンカーネルとTLPで表現されたエンドツーエンドのDLワークロードによるアプローチの有効性を実証し,複数のプラットフォーム上での最先端実装よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。