論文の概要: Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and NVIDIA Data Center GPUs
- arxiv url: http://arxiv.org/abs/2507.00418v2
- Date: Wed, 22 Oct 2025 22:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:08.250529
- Title: Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and NVIDIA Data Center GPUs
- Title(参考訳): HPCクラスタにおけるLCMのシリアル:Qualcomm Cloud AI 100 UltraとNVIDIA Data Center GPUの比較研究
- Authors: Mohammad Firas Sada, John J. Graham, Elham E Khoda, Mahidhar Tatineni, Dmitry Mishin, Rajesh K. Gupta, Rick Wagner, Larry Smarr, Thomas A. DeFanti, Frank Würthwein,
- Abstract要約: 本研究では,大規模言語モデル(LLM)推論のためのQualcomm Cloud AI 100 Ultra (QAic)アクセラレータのベンチマーク解析を行う。
合計12のオープンソース LLM は、1億1400万から700億のパラメータで、vLLMフレームワークを使用して提供されている。
分析の結果,QAicはより粒度の細かいハードウェアアロケーションを実現しつつ,特定のモデルに有利な競争エネルギー効率を実現していることがわかった。
- 参考スコア(独自算出の注目度): 2.290295666279608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a benchmarking analysis of the Qualcomm Cloud AI 100 Ultra (QAic) accelerator for large language model (LLM) inference, evaluating its energy efficiency (throughput per watt), performance, and hardware scalability against NVIDIA A100 GPUs (in 4x and 8x configurations) within the National Research Platform (NRP) ecosystem. A total of 12 open-source LLMs, ranging from 124 million to 70 billion parameters, are served using the vLLM framework. Our analysis reveals that QAic achieves competitive energy efficiency with advantages on specific models while enabling more granular hardware allocation: some 70B models operate on as few as 1 QAic card versus 8 A100 GPUs required, with 20x lower power consumption (148W vs 2,983W). For smaller models, single QAic devices achieve up to 35x lower power consumption compared to our 4-GPU A100 configuration (36W vs 1,246W). The findings offer insights into the potential of the Qualcomm Cloud AI 100 Ultra for energy-constrained and resource-efficient HPC deployments within the National Research Platform (NRP).
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)推論のためのQualcomm Cloud AI 100 Ultra(QAic)アクセラレータのベンチマーク分析を行い,そのエネルギー効率(ワット当たりのスループット),性能,およびNRPエコシステム内のNVIDIA A100 GPU(4倍および8倍構成)に対するハードウェアスケーラビリティを評価する。
合計12のオープンソース LLM は、1億1400万から700億のパラメータで、vLLMフレームワークを使用して提供されている。
いくつかの70Bモデルは1QAicカードと8A100 GPUで動作し、消費電力は20倍(148W対2,983W)である。
小型モデルの場合、単一のQAicデバイスは4-GPU A100構成(36W vs 1,246W)と比較して最大35倍の消費電力を実現します。
この発見は、National Research Platform (NRP)内のエネルギー制約とリソース効率のよいHPCデプロイメントのためのQualcomm Cloud AI 100 Ultraの可能性に関する洞察を提供する。
関連論文リスト
- Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities [2.81562931579552]
本稿では,基本線形代数核に対するテンストレントグレイスコールe75 RISC-V加速器の性能を数値的精度で評価する。
本稿では,Grayskullの実行モデル,グリッドサイズ,行列次元,データ形式,数値的精度の計算効率について述べる。
論文 参考訳(メタデータ) (2025-05-09T14:29:37Z) - ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。
具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。
ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文 参考訳(メタデータ) (2025-03-08T07:03:43Z) - Debunking the CUDA Myth Towards GPU-based AI Systems [10.670961068343479]
AIシステム設計におけるデファクトスタンダードであるNVIDIA A100とIntel Gaudi-2を比較した。
Gaudi-2はA100に匹敵するエネルギー効率を達成するが、ソフトウェア成熟度の観点からは注目すべき分野がある。
ハイレベルなAIフレームワークへの効果的な統合によって、Gaudi NPUは、AIサーバ市場におけるNVIDIA GPUの優位性に挑戦する可能性がある、と私たちは結論付けています。
論文 参考訳(メタデータ) (2024-12-31T01:24:52Z) - Automated Text Scoring in the Age of Generative AI for the GPU-poor [49.1574468325115]
自動テキストスコアリングのためのオープンソースの小規模生成言語モデルの性能と効率を解析する。
以上の結果から, GLMは, 最先端の高性能化には至らず, 適正な調整が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-02T01:17:01Z) - Insight Gained from Migrating a Machine Learning Model to Intelligence Processing Units [8.782847610934635]
インテリジェンス処理ユニット(IPU)は、機械学習(ML)アプリケーションのためのGPUに代わる実行可能なアクセラレータを提供する。
本稿では,GPU から IPU へモデルを移行するプロセスについて検討し,パイプライニングや勾配蓄積などの最適化手法について検討する。
従来のColossus IPUと比較して,Bow IPUの性能は大幅に向上した。
論文 参考訳(メタデータ) (2024-04-16T17:02:52Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - From Words to Watts: Benchmarking the Energy Costs of Large Language
Model Inference [19.439683873290623]
大規模言語モデル(LLM)は、新しい生成能力によって、最先端の最先端をはるかに超えているため、人気が高まっている。
これらのモデルには計算上の課題、特に推論に必要な計算とエネルギーのコストが伴う。
論文 参考訳(メタデータ) (2023-10-04T17:41:59Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - A Heterogeneous Parallel Non-von Neumann Architecture System for
Accurate and Efficient Machine Learning Molecular Dynamics [9.329011150399726]
本稿では,高精度かつ高効率な機械学習(ML)計算を実現するための特別目的システムを提案する。
このシステムは、フィールドプログラマブルゲートアレイ(FPGA)と、異種並列化で動作するアプリケーション固有集積回路(ASIC)で構成されている。
論文 参考訳(メタデータ) (2023-03-26T05:43:49Z) - High-Throughput, High-Performance Deep Learning-Driven Light Guide Plate
Surface Visual Quality Inspection Tailored for Real-World Manufacturing
Environments [75.66288398180525]
光導光板は、医療用照明器具からバックライトテレビディスプレイまで幅広い用途で広く利用されている光学部品である。
本研究では,光ガイド板表面の視覚的品質検査(VQI)を現実の製造環境に適した,完全に統合された,高性能なディープラーニング駆動ワークフローを提案する。
完全統合VQIシステム内のエッジコンピューティング上でのVQIの自動化を実現するため、高コンパクトな深層アンチエイリアス型アテンションコンデンサニューラルネットワーク(LightDefectNetと呼ぶ)が開発された。
LightDetectNetが検出精度を実現する実験
論文 参考訳(メタデータ) (2022-12-20T20:11:11Z) - JUWELS Booster -- A Supercomputer for Large-Scale AI Research [79.02246047353273]
本稿では、最近J'ulich Supercomputing Centerに委託された高性能コンピューティングシステムであるJUWELS Boosterを紹介する。
システムアーキテクチャ、並列性、分散モデルトレーニング、その優れたパフォーマンスを示すベンチマークについて詳述する。
論文 参考訳(メタデータ) (2021-06-30T21:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。