Fugu-MT 論文翻訳(概要): Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and High-Performance GPUs

論文の概要: Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and High-Performance GPUs

arxiv url: http://arxiv.org/abs/2507.00418v1
Date: Tue, 01 Jul 2025 04:11:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.267561
Title: Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and High-Performance GPUs
Title（参考訳）: HPCクラスタにおけるServing LLM:Qualcomm Cloud AI 100 UltraとHigh-Performance GPUの比較研究
Authors: Mohammad Firas Sada, John J. Graham, Elham E Khoda, Mahidhar Tatineni, Dmitry Mishin, Rajesh K. Gupta, Rick Wagner, Larry Smarr, Thomas A. DeFanti, Frank Würthwein,
Abstract要約: 本研究では,大規模言語モデル(LLM)推論のためのQualcomm Cloud AI 100 Ultra (QAic)アクセラレータのベンチマーク解析を行う。合計で1億7700万から900億のパラメータを含む15のオープンソースLLMが、vLLMフレームワークを使用して提供されている。 QAic推論カードはエネルギー効率が良く、ほとんどの場合エネルギー効率の指標でよく機能する。
参考スコア（独自算出の注目度）: 2.2307491841156812
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study presents a benchmarking analysis of the Qualcomm Cloud AI 100 Ultra (QAic) accelerator for large language model (LLM) inference, evaluating its energy efficiency (throughput per watt) and performance against leading NVIDIA (A100, H200) and AMD (MI300A) GPUs within the National Research Platform (NRP) ecosystem. A total of 15 open-source LLMs, ranging from 117 million to 90 billion parameters, are served using the vLLM framework. The QAic inference cards appears to be energy efficient and performs well in the energy efficiency metric in most cases. The findings offer insights into the potential of the Qualcomm Cloud AI 100 Ultra for high-performance computing (HPC) applications within the National Research Platform (NRP).
Abstract（参考訳）: 本研究では,大規模言語モデル(LLM)推論のためのQualcomm Cloud AI 100 Ultra(QAic)アクセラレータのベンチマーク分析を行い,そのエネルギー効率(ワット当たりのスループット)とNVIDIA(A100,H200)およびNRP(NRP)エコシステム内のAMD(MI300A)GPUに対する性能を評価する。合計で1億7700万から900億のパラメータを含む15のオープンソースLLMが、vLLMフレームワークを使用して提供されている。 QAic推論カードはエネルギー効率が良く、ほとんどの場合エネルギー効率の指標でよく機能する。この発見は、National Research Platform(NRP)内のハイパフォーマンスコンピューティング(HPC)アプリケーションに対するQualcomm Cloud AI 100 Ultraの可能性に関する洞察を提供する。

関連論文リスト

Assessing Tenstorrent's RISC-V MatMul Acceleration Capabilities [2.81562931579552]
本稿では,基本線形代数核に対するテンストレントグレイスコールe75 RISC-V加速器の性能を数値的精度で評価する。本稿では,Grayskullの実行モデル,グリッドサイズ,行列次元,データ形式,数値的精度の計算効率について述べる。
論文参考訳（メタデータ） (2025-05-09T14:29:37Z)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Debunking the CUDA Myth Towards GPU-based AI Systems [10.670961068343479]
AIシステム設計におけるデファクトスタンダードであるNVIDIA A100とIntel Gaudi-2を比較した。 Gaudi-2はA100に匹敵するエネルギー効率を達成するが、ソフトウェア成熟度の観点からは注目すべき分野がある。ハイレベルなAIフレームワークへの効果的な統合によって、Gaudi NPUは、AIサーバ市場におけるNVIDIA GPUの優位性に挑戦する可能性がある、と私たちは結論付けています。
論文参考訳（メタデータ） (2024-12-31T01:24:52Z)
Automated Text Scoring in the Age of Generative AI for the GPU-poor [49.1574468325115]
自動テキストスコアリングのためのオープンソースの小規模生成言語モデルの性能と効率を解析する。以上の結果から, GLMは, 最先端の高性能化には至らず, 適正な調整が可能であることが示唆された。
論文参考訳（メタデータ） (2024-07-02T01:17:01Z)
Insight Gained from Migrating a Machine Learning Model to Intelligence Processing Units [8.782847610934635]
インテリジェンス処理ユニット(IPU)は、機械学習(ML)アプリケーションのためのGPUに代わる実行可能なアクセラレータを提供する。本稿では,GPU から IPU へモデルを移行するプロセスについて検討し,パイプライニングや勾配蓄積などの最適化手法について検討する。従来のColossus IPUと比較して,Bow IPUの性能は大幅に向上した。
論文参考訳（メタデータ） (2024-04-16T17:02:52Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)
From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference [19.439683873290623]
大規模言語モデル(LLM)は、新しい生成能力によって、最先端の最先端をはるかに超えているため、人気が高まっている。これらのモデルには計算上の課題、特に推論に必要な計算とエネルギーのコストが伴う。
論文参考訳（メタデータ） (2023-10-04T17:41:59Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
A Heterogeneous Parallel Non-von Neumann Architecture System for Accurate and Efficient Machine Learning Molecular Dynamics [9.329011150399726]
本稿では,高精度かつ高効率な機械学習(ML)計算を実現するための特別目的システムを提案する。このシステムは、フィールドプログラマブルゲートアレイ(FPGA)と、異種並列化で動作するアプリケーション固有集積回路(ASIC)で構成されている。
論文参考訳（メタデータ） (2023-03-26T05:43:49Z)
High-Throughput, High-Performance Deep Learning-Driven Light Guide Plate Surface Visual Quality Inspection Tailored for Real-World Manufacturing Environments [75.66288398180525]
光導光板は、医療用照明器具からバックライトテレビディスプレイまで幅広い用途で広く利用されている光学部品である。本研究では,光ガイド板表面の視覚的品質検査(VQI)を現実の製造環境に適した,完全に統合された,高性能なディープラーニング駆動ワークフローを提案する。完全統合VQIシステム内のエッジコンピューティング上でのVQIの自動化を実現するため、高コンパクトな深層アンチエイリアス型アテンションコンデンサニューラルネットワーク(LightDefectNetと呼ぶ)が開発された。 LightDetectNetが検出精度を実現する実験
論文参考訳（メタデータ） (2022-12-20T20:11:11Z)
JUWELS Booster -- A Supercomputer for Large-Scale AI Research [79.02246047353273]
本稿では、最近J'ulich Supercomputing Centerに委託された高性能コンピューティングシステムであるJUWELS Boosterを紹介する。システムアーキテクチャ、並列性、分散モデルトレーニング、その優れたパフォーマンスを示すベンチマークについて詳述する。
論文参考訳（メタデータ） (2021-06-30T21:37:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。