論文の概要: Debunking the CUDA Myth Towards GPU-based AI Systems
- arxiv url: http://arxiv.org/abs/2501.00210v1
- Date: Tue, 31 Dec 2024 01:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:18.457917
- Title: Debunking the CUDA Myth Towards GPU-based AI Systems
- Title(参考訳): GPUベースのAIシステムに向けたCUDA神話の議論
- Authors: Yunjae Lee, Juntaek Lim, Jehyeon Bang, Eunyeong Cho, Huijong Jeong, Taesu Kim, Hyungjun Kim, Joonhyung Lee, Jinseop Im, Ranggi Hwang, Se Jung Kwon, Dongsoo Lee, Minsoo Rhu,
- Abstract要約: 我々は、Intel Gaudi-2とNVIDIA A100を比較し、プリミティブAI計算、メモリ、通信操作を行う。
Gaudi-2はA100に匹敵するエネルギー効率を達成するが、ソフトウェア成熟度の観点からは注目すべき分野がある。
- 参考スコア(独自算出の注目度): 10.670961068343479
- License:
- Abstract: With the rise of AI, NVIDIA GPUs have become the de facto standard for AI system design. This paper presents a comprehensive evaluation of Intel Gaudi NPUs as an alternative to NVIDIA GPUs for AI model serving. First, we create a suite of microbenchmarks to compare Intel Gaudi-2 with NVIDIA A100, showing that Gaudi-2 achieves competitive performance not only in primitive AI compute, memory, and communication operations but also in executing several important AI workloads end-to-end. We then assess Gaudi NPU's programmability by discussing several software-level optimization strategies to employ for implementing critical FBGEMM operators and vLLM, evaluating their efficiency against GPU-optimized counterparts. Results indicate that Gaudi-2 achieves energy efficiency comparable to A100, though there are notable areas for improvement in terms of software maturity. Overall, we conclude that, with effective integration into high-level AI frameworks, Gaudi NPUs could challenge NVIDIA GPU's dominance in the AI server market, though further improvements are necessary to fully compete with NVIDIA's robust software ecosystem.
- Abstract(参考訳): AIの台頭に伴い、NVIDIA GPUはAIシステム設計のデファクトスタンダードになっている。
本稿では,Intel Gaudi NPUをAIモデル提供のためのNVIDIA GPUの代替として包括的に評価する。
まず、Intel Gaudi-2とNVIDIA A100を比較するためのマイクロベンチマークスイートを作成し、Gaudi-2がプリミティブなAI計算、メモリ、通信操作だけでなく、いくつかの重要なAIワークロードのエンドツーエンド実行において競合的なパフォーマンスを達成することを示す。
次に、重要なFBGEMM演算子とvLLMを実装するためのソフトウェアレベルの最適化戦略について議論し、GPUに最適化された演算子に対して効率を評価することにより、Gaudi NPUのプログラム性を評価する。
結果はGaudi-2がA100に匹敵するエネルギー効率を達成することを示唆している。
全体として、ハイレベルなAIフレームワークへの効果的な統合によって、Gaudi NPUは、NVIDIA GPUがAIサーバー市場で優位に立つことに挑戦する可能性があるが、NVIDIAの堅牢なソフトウェアエコシステムと完全に競合するためには、さらなる改善が必要である、と結論付けています。
関連論文リスト
- Benchmarking End-To-End Performance of AI-Based Chip Placement Algorithms [77.71341200638416]
ChiPBenchはAIベースのチップ配置アルゴリズムの有効性を評価するために設計されたベンチマークである。
評価のために、さまざまなドメイン(CPU、GPU、マイクロコントローラなど)から20の回路を集めました。
その結果, 単点アルゴリズムの中間距離が支配的であったとしても, 最終的なPPA結果は満足できないことがわかった。
論文 参考訳(メタデータ) (2024-07-03T03:29:23Z) - FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems [5.572152653851948]
FULL-W2Vは、W2Vアルゴリズムにおけるデータ再利用の機会を利用して、低メモリレベルへのアクセスを減らし、時間的局所性を改善する。
我々のプロトタイプ実装では、Nvidia Pascal P100からVolta V100への移植時に2.97倍の高速化を実現し、同じ埋め込み品質のV100カードでは、最先端の5.72倍の性能を発揮する。
論文 参考訳(メタデータ) (2023-12-12T21:22:07Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Tricking AI chips into Simulating the Human Brain: A Detailed
Performance Analysis [0.5354801701968198]
脳シミュレーションでは、複数の最先端AIチップ(Graphcore IPU、GroqChip、劣悪なCoreを持つNvidia GPU、Google TPU)を評価した。
性能解析の結果,シミュレーション問題はGPUとTPUアーキテクチャに極めてよく対応していることがわかった。
GroqChipは、小さなネットワークにおいて両方のプラットフォームより優れているが、精度の低い浮動小数点演算を実装しているため、脳シミュレーションではまだ利用できない。
論文 参考訳(メタデータ) (2023-01-31T13:51:37Z) - Inference-optimized AI and high performance computing for gravitational
wave detection at scale [3.6118662460334527]
我々は、32ノードを用いたサミットスーパーコンピュータでトレーニングした重力波検出のための人工知能モデルのアンサンブルを導入する。
我々はArgonne Leadership Computer FacilityのThetaGPUスーパーコンピュータに推論最適化AIアンサンブルをデプロイする。
NVIDIARTに最適化されたAIアンサンブルは、50秒以内に、先進的なLIGOデータ(ハンフォードやリビングストンのデータストリームを含む)の1ヶ月を要した。
論文 参考訳(メタデータ) (2022-01-26T19:00:01Z) - JUWELS Booster -- A Supercomputer for Large-Scale AI Research [79.02246047353273]
本稿では、最近J'ulich Supercomputing Centerに委託された高性能コンピューティングシステムであるJUWELS Boosterを紹介する。
システムアーキテクチャ、並列性、分散モデルトレーニング、その優れたパフォーマンスを示すベンチマークについて詳述する。
論文 参考訳(メタデータ) (2021-06-30T21:37:02Z) - ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and
CUDA Devices [0.36748639131154304]
FPGAは長い間、高性能コンピューティングが可能な唯一の処理ハードウェアであった。
最近のGPUベースのシステムでは、グラフィックスハードウェア上で非常に並列な組み込みコンピューティングが可能になる。
ARMおよびDJI対応デバイス上でのリアルタイムな組み込みステレオ処理手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T07:29:25Z) - Real-Time Quantized Image Super-Resolution on Mobile NPUs, Mobile AI
2021 Challenge: Report [67.86837649834636]
我々は,エンド・ツー・エンドのディープラーニングベースの画像超解像ソリューションを開発することを目的とした,最初のモバイルaiチャレンジを紹介する。
提案されたソリューションは、すべての主要なモバイルAIアクセラレータと完全に互換性があり、40-60ms以下のフルHDイメージを再構築することができる。
論文 参考訳(メタデータ) (2021-05-17T13:34:15Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Implementing a GPU-based parallel MAX-MIN Ant System [0.0]
我々はGPUベースの並列MMASの実装を改善するための新しいアイデアについて論じる。
MMAS実装は、最先端のGPUベースおよびマルチコアCPUベースの並列ACO実装と競合することを示す。
論文 参考訳(メタデータ) (2020-01-18T14:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。