論文の概要: ZettaLith: An Architectural Exploration of Extreme-Scale AI Inference Acceleration
- arxiv url: http://arxiv.org/abs/2507.02871v1
- Date: Sun, 08 Jun 2025 07:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.476351
- Title: ZettaLith: An Architectural Exploration of Extreme-Scale AI Inference Acceleration
- Title(参考訳): ZettaLith: 極規模のAI推論加速のアーキテクチャ的探索
- Authors: Kia Silverbrook,
- Abstract要約: 本稿では,AI推論のコストとパワーを1000倍以上削減するために設計されたスケーラブルなコンピューティングアーキテクチャであるZetaLithを紹介する。
アーキテクチャ分析と技術投射に基づいて、2027年にゼッタリスラック1基が1.507ゼッタFLOPSを達成する可能性がある。
ZettaLithはAI推論専用に最適化されており、AIトレーニングには適用できない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high computational cost and power consumption of current and anticipated AI systems present a major challenge for widespread deployment and further scaling. Current hardware approaches face fundamental efficiency limits. This paper introduces ZettaLith, a scalable computing architecture designed to reduce the cost and power of AI inference by over 1,000x compared to current GPU-based systems. Based on architectural analysis and technology projections, a single ZettaLith rack could potentially achieve 1.507 zettaFLOPS in 2027 - representing a theoretical 1,047x improvement in inference performance, 1,490x better power efficiency, and could be 2,325x more cost-effective than current leading GPU racks for FP4 transformer inference. The ZettaLith architecture achieves these gains by abandoning general purpose GPU applications, and via the multiplicative effect of numerous co-designed architectural innovations using established digital electronic technologies, as detailed in this paper. ZettaLith's core architectural principles scale down efficiently to exaFLOPS desktop systems and petaFLOPS mobile chips, maintaining their roughly 1,000x advantage. ZettaLith presents a simpler system architecture compared to the complex hierarchy of current GPU clusters. ZettaLith is optimized exclusively for AI inference and is not applicable for AI training.
- Abstract(参考訳): 現在および期待されているAIシステムの高い計算コストと消費電力は、広範なデプロイメントとさらなるスケーリングにおいて大きな課題となる。
現在のハードウェアアプローチは、基本的な効率の限界に直面している。
本稿では、現在のGPUベースのシステムと比較して、AI推論のコストとパワーを1000倍以上削減するために設計されたスケーラブルなコンピューティングアーキテクチャであるZetaLithを紹介する。
アーキテクチャ分析と技術予測に基づいて、2027年には1つのZetaLithラックが1.507 zettaFLOPSを達成する可能性があり、これは推論性能が理論上の1,047倍改善され、1,490倍の電力効率が向上し、FP4トランスフォーマー推論における現在の主要なGPUラックよりも2,325倍コスト効率が向上する可能性がある。
ZettaLithアーキテクチャは、汎用GPUアプリケーションを捨て、確立されたデジタル電子技術を用いた多数の共同設計のアーキテクチャ革新の乗法効果により、これらの利益を達成する。
ZettaLithのコアアーキテクチャ原則は、exaFLOPSデスクトップシステムとpetaFLOPSモバイルチップに効率よくスケールダウンし、約1000倍の利点を維持している。
ZettaLithは、現在のGPUクラスタの複雑な階層と比較して、よりシンプルなシステムアーキテクチャを提供する。
ZettaLithはAI推論専用に最適化されており、AIトレーニングには適用できない。
関連論文リスト
- Distributed Equivariant Graph Neural Networks for Large-Scale Electronic Structure Prediction [76.62155593340763]
密度汎関数理論(DFT)データに基づいて訓練された等価グラフニューラルネットワーク(eGNN)は、前例のない規模で電子構造予測を行う可能性がある。
しかし、このタスクに必要なグラフ表現は密結合である傾向がある。
本稿では,直接GPU通信を利用する分散eGNNの実装と,入力グラフの分割戦略を提案する。
論文 参考訳(メタデータ) (2025-07-04T23:53:47Z) - PIM-AI: A Novel Architecture for High-Efficiency LLM Inference [0.4746684680917117]
本稿では,大規模言語モデル推論用に設計された新しいDDR5/LPDDR5 PIMアーキテクチャであるPIM-AIを紹介する。
クラウドベースのシナリオでは、PIM-AIはクエリ毎秒あたりの3年間のTCOを最大6.94倍削減する。
モバイルシナリオでは、PIM-AIは最先端のモバイルSOCと比較してトークン当たりのエネルギーを10倍から20倍に削減する。
論文 参考訳(メタデータ) (2024-11-26T10:54:19Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning [49.997801914237094]
我々は、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介する。
ディープラーニング(DL)トレーニングでは、1万のPCIe A100 GPUでFire-Flyer 2をデプロイし、DGX-A100の性能評価を達成し、コストを半分に削減し、エネルギー消費を40%削減しました。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
論文 参考訳(メタデータ) (2024-08-26T10:11:56Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Fast GraspNeXt: A Fast Self-Attention Neural Network Architecture for
Multi-task Learning in Computer Vision Tasks for Robotic Grasping on the Edge [80.88063189896718]
アーキテクチャと計算の複雑さが高いと、組み込みデバイスへのデプロイに適さない。
Fast GraspNeXtは、ロボットグルーピングのためのコンピュータビジョンタスクに埋め込まれたマルチタスク学習に適した、高速な自己認識型ニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2023-04-21T18:07:14Z) - An FPGA-based Solution for Convolution Operation Acceleration [0.0]
本稿では,畳み込み動作を高速化するFPGAアーキテクチャを提案する。
プロジェクトの目的は、一度に畳み込み層を処理できるFPGA IPコアを作成することである。
論文 参考訳(メタデータ) (2022-06-09T14:12:30Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Edge AI without Compromise: Efficient, Versatile and Accurate
Neurocomputing in Resistive Random-Access Memory [0.0]
我々は,RRAM CIMを用いた最初のマルチモーダルエッジAIチップであるNeuRRAMを提案する。
計算ビット精度の異なる先行技術よりも, 5 倍のエネルギー効率を 5 倍から 8 倍に向上することを示す。
この作業は、高度に効率的で再構成可能なエッジAIハードウェアプラットフォームを構築するための道を開くものだ。
論文 参考訳(メタデータ) (2021-08-17T21:08:51Z) - iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo
Matching on FPGA Platform [21.435663827158564]
FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。
当社のFPGA実現は、38.4xと3.32xのフレームレート改善、27.1xと1.13xのエネルギー効率改善を実現します。
論文 参考訳(メタデータ) (2021-04-11T21:22:54Z) - Near-Optimal Hardware Design for Convolutional Neural Networks [0.0]
本研究では,畳み込みニューラルネットワークのための新しい,特殊目的,高効率ハードウェアアーキテクチャを提案する。
提案アーキテクチャは,モデルの計算フローと同じ構造を持つ計算回路を設計することにより,乗算器の利用を最大化する。
提案するハードウェアアーキテクチャに基づく実装が,商用AI製品に適用されている。
論文 参考訳(メタデータ) (2020-02-06T09:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。