論文の概要: Instant GPU Efficiency Visibility at Fleet Scale
- arxiv url: http://arxiv.org/abs/2605.20799v1
- Date: Wed, 20 May 2026 06:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.535223
- Title: Instant GPU Efficiency Visibility at Fleet Scale
- Title(参考訳): フリートスケールにおけるインスタントGPU効率の可視性
- Authors: Connor Pedersen, Dong H. Ahn, Michel Migdal, Collin Neale, Nik Konyuchenko,
- Abstract要約: 全体的なFLOP利用(OFU)は、ハードウェアレベルでの、HPCシステム上のAIワークロードの精度非依存の効率指標である。
タイル量子化,浮動小数点精度スケーリング,クロックサンプリングノイズ,コアクロック領域,非テンソルアンダーカウントの5つの特性を特徴付ける。
我々の評価と運用経験から、OFUはアプリケーションレベルのMFUの実用的で、デプロイ可能な補完であり、継続的な艦隊全体の効率モニタリングが可能であることが示唆されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Overall FLOP Utilization (OFU), a hardware-level, precision-agnostic GPU efficiency metric for AI workloads on HPC systems, derived from two on-chip performance counters: Tensor Pipe Activity and SM clock frequency. OFU requires no application instrumentation and works across GPU generations and numeric precisions. We characterize five properties of the OFU approximation -- tile quantization, floating-point precision scaling, clock sampling noise, Tensor Core clock domains, and non-tensor undercounting -- through controlled GEMM experiments on H100 and GB200 across FP16, TF32, FP8, and NVFP4. After tile-quantization correction, OFU predicts application-level MFU to within <=2 percentage points. Against 608 production training jobs, OFU achieves r = 0.78 correlation with application-level MFU and surfaces two framework-level FLOPs miscalculations. Deployed across large-scale GPU fleets, OFU has detected a 2.5x efficiency regression and tracked precision-dependent utilization changes in mixed-precision pretraining. Our evaluation and operational experience suggest OFU is a practical, deployment-ready complement to application-level MFU for continuous fleet-wide efficiency monitoring.
- Abstract(参考訳): 本稿では,HPCシステム上のAIワークロードを対象とした,ハードウェアレベルの高精度GPU効率指標であるFLOP utilization (OFU) について述べる。
OFUはアプリケーションインスツルメンテーションを必要とせず、GPU世代と数値精度で動作する。
我々は,FP16,TF32,FP8,NVFP4をまたいだH100,GB200のGEMM実験により,タイル量子化,浮動小数点精度スケーリング,クロックサンプリングノイズ,テンソルコアクロック領域,非テンソルアンダーカウントの5つの特性を特徴付ける。
タイル量子化補正後、OFUはアプリケーションレベルのMFUを<=2ポイント以内と予測する。
608のプロダクショントレーニングジョブに対して、OFUはアプリケーションレベルのMFUとr = 0.78の相関を達成し、2つのフレームワークレベルのFLOPの誤計算を表面化する。
大規模GPU群にデプロイされたOFUは、2.5倍の効率低下を検出し、混合精度の事前トレーニングにおける精度依存性の利用変化を追跡した。
我々の評価と運用経験から、OFUはアプリケーションレベルのMFUの実用的で、デプロイ可能な補完であり、継続的な艦隊全体の効率モニタリングが可能であることが示唆されている。
関連論文リスト
- Millisecond-Scale Calibration and Benchmarking of Superconducting Qubits [0.001970303609484344]
我々は、パルス生成、データ取得、分析、フィードフォワードを共に配置し、CPUラウンドトリップをなくす、FPGA上でのワークフローを実証する。
本ワークフローでは,指数関数および正弦関数のような応答関数を計算効率よく推定する手法を含む,スパースサンプリングおよびオンFPGA推論ツールを導入する。
これらの方法は、読み出し校正、分光、パルス振幅校正、コヒーレンス推定、ベンチマークのための低遅延プリミティブを可能にする。
論文 参考訳(メタデータ) (2026-02-12T13:08:22Z) - Scaling Laws of Machine Learning for Optimal Power Flow [18.873780776603216]
深層ニューラルネットワーク(DNN)のような機械学習アプローチは、OPFソリューションの速度と性能を向上させるために広く研究されている。
既存の研究では、これらのスケーリング関係を定量化することなく、離散的なシナリオを評価する。
この研究は、MLベースのOPFの2次元にわたる最初の体系的スケーリング研究である。
論文 参考訳(メタデータ) (2026-01-06T04:32:37Z) - An Efficient Outlier Detection Algorithm for Data Streaming [51.56874851156008]
Local Outlier Factor (LOF)アルゴリズムのような従来の異常検出手法は、リアルタイムデータと競合する。
本稿では,オンライン異常検出におけるLOFアルゴリズムの効率向上のための新しい手法を提案し,EILOFアルゴリズムを提案する。
EILOFアルゴリズムは計算コストを大幅に削減するだけでなく、加算点数が増加すると検出精度を体系的に改善する。
論文 参考訳(メタデータ) (2025-01-02T05:12:43Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Semi-Federated Learning: Convergence Analysis and Optimization of A
Hybrid Learning Framework [70.83511997272457]
本稿では,ベースステーション(BS)とデバイスの両方を活用するセミフェデレーション学習(SemiFL)パラダイムを提案し,中央集権学習(CL)とFLのハイブリッド実装を提案する。
我々はこの難解な問題を解くための2段階のアルゴリズムを提案し、ビームフォーマに閉形式解を提供する。
論文 参考訳(メタデータ) (2023-10-04T03:32:39Z) - Channel and Gradient-Importance Aware Device Scheduling for Over-the-Air
Federated Learning [31.966999085992505]
フェデレートラーニング(Federated Learning、FL)は、プライバシ保護のための分散トレーニングスキームである。
チャネルノイズ歪みの負の影響を緩和するために,PO-FL というオーバー・ザ・エア FL のための機器スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:04:59Z) - Dynamic Feature Pyramid Networks for Object Detection [40.24111664691307]
本稿では,各層に異なるカーネルサイズを持つ畳み込みフィルタを組み込んで,受容場を拡大するFPNを提案する。
計算コストの異なる複数の分岐からなる新しい動的FPN(DyFPN)を提案する。
ベンチマーク実験により,提案したDyFPNは計算資源の最適割り当てにより性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-12-01T19:03:55Z) - High-Fidelity Machine Learning Approximations of Large-Scale Optimal
Power Flow [49.2540510330407]
AC-OPFは、多くの電力システムアプリケーションにおいて重要なビルディングブロックである。
本稿では, 再生可能エネルギーの普及にともなって, AC-OPFの効率的な近似を実現するための深層学習について検討する。
論文 参考訳(メタデータ) (2020-06-29T20:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。