論文の概要: How Much Progress Has There Been in NVIDIA Datacenter GPUs?
- arxiv url: http://arxiv.org/abs/2601.20115v2
- Date: Thu, 29 Jan 2026 20:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.226393
- Title: How Much Progress Has There Been in NVIDIA Datacenter GPUs?
- Title(参考訳): NVIDIAのデータセンタGPUはどの程度進歩したのか?
- Authors: Emanuele Del Sozzo, Martin Fleming, Kenneth Flamm, Neil Thompson,
- Abstract要約: 本稿では2000年代半ばから今日までのNVIDIAデータセンターGPUの技術的進歩について研究する。
本稿では,主GPU機能の動向と,メモリ当たりの帯域幅,ドル当たり,ワット当たりの増加率の予測値について検討する。
オフチップのメモリサイズと帯域幅はコンピュータの性能よりも遅くなり、3.32年から3.53年で倍増した。
- 参考スコア(独自算出の注目度): 2.6210140502008477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphics Processing Units (GPUs) are the state-of-the-art architecture for essential tasks, ranging from rendering 2D/3D graphics to accelerating workloads in supercomputing centers and, of course, Artificial Intelligence (AI). As GPUs continue improving to satisfy ever-increasing performance demands, analyzing past and current progress becomes paramount in determining future constraints on scientific research. This is particularly compelling in the AI domain, where rapid technological advancements and fierce global competition have led the United States to recently implement export control regulations limiting international access to advanced AI chips. For this reason, this paper studies technical progress in NVIDIA datacenter GPUs released from the mid-2000s until today. Specifically, we compile a comprehensive dataset of datacenter NVIDIA GPUs comprising several features, ranging from computational performance to release price. Then, we examine trends in main GPU features and estimate progress indicators for per-memory bandwidth, per-dollar, and per-watt increase rates. Our main results identify doubling times of 1.44 and 1.69 years for FP16 and FP32 operations (without accounting for sparsity benefits), while FP64 doubling times range from 2.06 to 3.79 years. Off-chip memory size and bandwidth grew at slower rates than computing performance, doubling every 3.32 to 3.53 years. The release prices of datacenter GPUs have roughly doubled every 5.1 years, while their power consumption has approximately doubled every 16 years. Finally, we quantify the potential implications of current U.S. export control regulations in terms of the potential performance gaps that would result if implementation were assumed to be complete and successful. We find that recently proposed changes to export controls would shrink the potential performance gap from 23.6x to 3.54x.
- Abstract(参考訳): グラフィックス処理ユニット(GPU)は、2D/3Dグラフィックスのレンダリングからスーパーコンピュータセンターでのワークロードの高速化、そしてもちろん人工知能(AI)まで、重要なタスクのための最先端アーキテクチャである。
GPUが継続的なパフォーマンス要求を満たすように改善を続けるにつれ、科学研究における将来の制約を決定する上で、過去と現在の進歩を分析することが最重要となる。
これは、急速な技術進歩と激しい国際競争により、米国が最近、先進的なAIチップへの国際的アクセスを制限する輸出規制を実装した、AI領域において特に魅力的である。
そこで本研究では,2000年代半ばから現在までのNVIDIAデータセンタGPUの技術的進歩について検討する。
具体的には、計算性能からリリース価格まで、いくつかの特徴からなるデータセンターNVIDIA GPUの包括的なデータセットをコンパイルする。
次に、主GPU機能の動向と、メモリ毎の帯域幅、ドル当たり、ワット毎の増加率の予測進捗指標について検討する。
FP16とFP32の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2倍の2
オフチップのメモリサイズと帯域幅はコンピュータの性能よりも遅くなり、3.32年から3.53年で倍増した。
データセンターGPUのリリース価格は5.1年で約2倍になり、消費電力は16年で約2倍になった。
最後に、実装が完了し成功したと仮定した場合に生じる潜在的なパフォーマンスギャップの観点から、現在の米国輸出管理規制の潜在的影響を定量化する。
最近提案された輸出規制の変更により、潜在的な性能格差は23.6倍から3.54倍に縮小することがわかった。
関連論文リスト
- GPU-Accelerated ANNS: Quantized for Speed, Built for Change [1.8419317899207142]
現在の近似近傍探索(ANNS)システムは3つの重要な制限に直面している。
現在のシステムでは、コストのかかるランダムなメモリアクセスを導入することなく、データ移動を減らす効率的な量子化技術が欠如している。
本稿では、高いクエリスループットとアップビリティを備えたGPUアクセラレーションANNSシステムであるJasperを紹介する。
論文 参考訳(メタデータ) (2026-01-11T19:51:54Z) - GaDE -- GPU-acceleration of time-dependent Dirac Equation for exascale [0.0]
GaDEは相対論的状態における電磁場によって誘起される原子の電子動力学をシミュレートするように設計されている。
AMD MI250X GPU と Hewlett-Packard の Slingshot 相互接続を用いた LUMI による GaDE の評価を行った。
論文 参考訳(メタデータ) (2025-12-25T14:47:36Z) - PREBA: A Hardware/Software Co-Design for Multi-Instance GPU based AI Inference Servers [3.0518650058744075]
PreBA(プレバ)は、MIG推論サーバをターゲットにしたハードウェア/ソフトウェアの共同設計である。
3.7倍のスループット、テールレイテンシの3.4倍の削減、エネルギー効率の3.5倍の改善、コスト効率の3.0倍の改善を提供する。
論文 参考訳(メタデータ) (2024-11-28T13:02:41Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems [5.572152653851948]
FULL-W2Vは、W2Vアルゴリズムにおけるデータ再利用の機会を利用して、低メモリレベルへのアクセスを減らし、時間的局所性を改善する。
我々のプロトタイプ実装では、Nvidia Pascal P100からVolta V100への移植時に2.97倍の高速化を実現し、同じ埋め込み品質のV100カードでは、最先端の5.72倍の性能を発揮する。
論文 参考訳(メタデータ) (2023-12-12T21:22:07Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Benchmarking Edge Computing Devices for Grape Bunches and Trunks
Detection using Accelerated Object Detection Single Shot MultiBox Deep
Learning Models [2.1922186455344796]
この研究は、オブジェクト検出のための異なるプラットフォームのパフォーマンスをリアルタイムでベンチマークする。
著者らは、自然なVineデータセットを使用して、RetinaNet ResNet-50を微調整した。
論文 参考訳(メタデータ) (2022-11-21T17:02:33Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。