論文の概要: Good things come in small packages: Should we adopt Lite-GPUs in AI infrastructure?
- arxiv url: http://arxiv.org/abs/2501.10187v1
- Date: Fri, 17 Jan 2025 13:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:54.286207
- Title: Good things come in small packages: Should we adopt Lite-GPUs in AI infrastructure?
- Title(参考訳): AIインフラストラクチャにLite-GPUを採用するべきか?
- Authors: Burcu Canakci, Junyi Liu, Xingbo Wu, Nathanaël Cheriere, Paolo Costa, Sergey Legtchenko, Dushyanth Narayanan, Ant Rowstron,
- Abstract要約: 製造コスト, 爆発半径, 収率, 電力効率に対するLite-GPUの利点について述べる。
リソース、ワークロード、メモリ、ネットワーク管理に関するシステム機会と課題について論じる。
- 参考スコア(独自算出の注目度): 1.919040910295649
- License:
- Abstract: To match the blooming demand of generative AI workloads, GPU designers have so far been trying to pack more and more compute and memory into single complex and expensive packages. However, there is growing uncertainty about the scalability of individual GPUs and thus AI clusters, as state-of-the-art GPUs are already displaying packaging, yield, and cooling limitations. We propose to rethink the design and scaling of AI clusters through efficiently-connected large clusters of Lite-GPUs, GPUs with single, small dies and a fraction of the capabilities of larger GPUs. We think recent advances in co-packaged optics can be key in overcoming the communication challenges of distributing AI workloads onto more Lite-GPUs. In this paper, we present the key benefits of Lite-GPUs on manufacturing cost, blast radius, yield, and power efficiency; and discuss systems opportunities and challenges around resource, workload, memory, and network management.
- Abstract(参考訳): 生成するAIワークロードの急増する需要に合わせて、GPUデザイナは、これまでますます多くの計算とメモリを単一の複雑で高価なパッケージに詰め込もうとしてきた。
しかし、最先端のGPUはパッケージング、収率、冷却の制限をすでに示しているため、個々のGPUやAIクラスタのスケーラビリティについて不確実性が高まっている。
我々は、Lite-GPUの効率よく接続された大規模なクラスタ、単一の小さなダイを持つGPU、より大きなGPUの能力のごく一部を通じて、AIクラスタの設計とスケーリングを再考することを提案する。
我々は、AIワークロードをより多くのLite-GPUに分散する際のコミュニケーション上の課題を克服する上で、協調パッケージオプティクスの最近の進歩が重要であると考えています。
本稿では,Lite-GPUが製造コスト,爆発半径,歩留まり,電力効率に与える影響について述べる。
関連論文リスト
- Power- and Fragmentation-aware Online Scheduling for GPU Datacenters [9.29180785233729]
我々はGPUのフラグメンテーションの最小化と消費電力の削減という2つの目標に焦点を当てている。
そこで本稿では,電力効率のよいGPUとCPUの組み合わせを選択することで,電力使用量を最小限に抑える新しいスケジューリングポリシーであるPWRを提案する。
本稿では,PWRがFGDと組み合わせることで,消費電力削減とGPUフラグメンテーションの最小化のトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2024-12-23T11:27:17Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - NEO: Saving GPU Memory Crisis with CPU Offloading for Online LLM Inference [22.24693513075852]
NEOは、注意計算の一部とKVキャッシュ状態をGPUからローカルホストCPUにオフロードするオンラインLLM推論システムである。
我々は、注意計算とKVキャッシュ状態の一部をGPUからローカルホストCPUにオフロードするオンラインLLM推論システムNEOを提案する。
論文 参考訳(メタデータ) (2024-11-02T05:15:44Z) - Exploring GPU-to-GPU Communication: Insights into Supercomputer Interconnects [15.145701300309337]
本稿では,Alps,Leonardo,LUMIの3種類のスーパーコンピュータを特徴付ける。
我々は,最大4096GPU上でのノード内およびノード間相互接続の性能評価に注目する。
その結果,帯域幅が未使用であること,最適化の機会がまだたくさんあることが判明した。
論文 参考訳(メタデータ) (2024-08-26T08:20:50Z) - NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。
パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。
我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-24T21:43:15Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - GPU Domain Specialization via Composable On-Package Architecture [0.8240720472180706]
Composable On-Package GPU (COPAGPU)アーキテクチャは、ドメイン特化GPU製品を提供する。
我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅とキャパシティを備えたベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示した。
論文 参考訳(メタデータ) (2021-04-05T23:06:50Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。