論文の概要: Safe, Seamless, And Scalable Integration Of Asynchronous GPU Streams In
PETSc
- arxiv url: http://arxiv.org/abs/2306.17801v1
- Date: Fri, 30 Jun 2023 17:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 18:33:19.023378
- Title: Safe, Seamless, And Scalable Integration Of Asynchronous GPU Streams In
PETSc
- Title(参考訳): PETScにおける非同期GPUストリームの安全、シームレス、スケーラブルな統合
- Authors: Jacob Faibussowitsch, Mark F. Adams, Richard Tran Mills, Stefano
Zampini, Junchao Zhang
- Abstract要約: この研究は、ストリームの採用におけるライブラリ作者特有の困難を列挙し、それらに対処する最近の研究を提示する。
我々はこれらの課題を克服するために, Portable, Extensible, Toolkit for Scientific Computation (PETSc) で使用する統一非同期プログラミングモデルを提案する。
- 参考スコア(独自算出の注目度): 4.123597295703336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging Graphics Processing Units (GPUs) to accelerate scientific software
has proven to be highly successful, but in order to extract more performance,
GPU programmers must overcome the high latency costs associated with their use.
One method of reducing or hiding this latency cost is to use asynchronous
streams to issue commands to the GPU. While performant, the streams model is an
invasive abstraction, and has therefore proven difficult to integrate into
general-purpose libraries. In this work, we enumerate the difficulties specific
to library authors in adopting streams, and present recent work on addressing
them. Finally, we present a unified asynchronous programming model for use in
the Portable, Extensible, Toolkit for Scientific Computation (PETSc) to
overcome these challenges. The new model shows broad performance benefits while
remaining ergonomic to the user.
- Abstract(参考訳): 科学ソフトウェアを加速するためにグラフィックス処理ユニット(GPU)を活用することは、非常に成功したことが証明されているが、より多くのパフォーマンスを抽出するためには、GPUプログラマは、使用に伴う高いレイテンシコストを克服しなければならない。
このレイテンシコストを削減または隠蔽する1つの方法は、非同期ストリームを使用してGPUにコマンドを発行することだ。
ストリームモデルの性能は侵入的な抽象化であり,汎用ライブラリへの統合が困難であることが証明されている。
本稿では,ストリームを採用するライブラリ作成者特有の困難を列挙し,それに対処する最近の取り組みについて述べる。
最後に、これらの課題を克服するために、Portable, Extensible, Toolkit for Scientific Computation (PETSc)で使用する統一非同期プログラミングモデルを提案する。
新しいモデルは、ユーザーに人間工学を継続しながら、幅広いパフォーマンスの利点を示します。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文 参考訳(メタデータ) (2023-09-04T13:15:01Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - SPEED: Streaming Partition and Parallel Acceleration for Temporal
Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。
提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。
7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文 参考訳(メタデータ) (2023-08-27T15:11:44Z) - Project CGX: Scalable Deep Learning on Commodity GPUs [17.116792714097738]
本稿では,ハードウェアオーバープロビジョンがアルゴリズムとシステム設計によって置き換えられるかを検討する。
本稿では,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。
このフレームワークは、コンシューマグレードのマルチGPUシステムから通信ボトルネックを取り除くことができる。
論文 参考訳(メタデータ) (2021-11-16T17:00:42Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。