Fugu-MT 論文翻訳(概要): Input-Dependent Power Usage in GPUs

論文の概要: Input-Dependent Power Usage in GPUs

arxiv url: http://arxiv.org/abs/2409.18324v1
Date: Thu, 26 Sep 2024 22:31:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 07:00:37.300352
Title: Input-Dependent Power Usage in GPUs
Title（参考訳）: GPUにおける入力依存電力利用
Authors: Theo Gregersen, Pratyush Patel, Esha Choukse,
Abstract要約: 入力データをGEMMに変換し,行列形状やサイズを維持しながら,これらのカーネルの消費電力を著しく変化させることができることを示す。以上の結果から,GEMMにおけるGPUの消費電力は,ほぼ40%変化することが示唆された。本稿では,この特性をコンパイラとスケジューラの最適化によって利用し,電力管理と省エネルギー化を提案する。
参考スコア（独自算出の注目度）: 0.23876474175791296
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: GPUs are known to be power-hungry, and due to the boom in artificial intelligence, they are currently the major contributors to the high power demands of upcoming datacenters. Most GPU usage in these popular workloads consist of large general matrix-matrix multiplications (GEMMs), which have therefore been optimized to achieve high utilization of hardware resources. In this work, we show that modifying the input data to GEMMs, while maintaining the matrix shapes and sizes can notably change the power consumption of these kernels. We experiment with four kinds of input variations: value distribution, bit similarity, placement, and sparsity, across different data types. Our findings indicate that these variations can change the GPU power usage during GEMM by almost 40%. We hypothesize that input-dependent power usage variations occur due to changes in the number of bit flips in the GPUs. We propose leveraging this property through compiler and scheduler optimizations to manage power and reduce energy consumption.
Abstract（参考訳）: GPUは電力不足で知られており、人工知能のブームにより、彼らは現在、今後のデータセンターの高電力需要に大きく貢献している。これらの一般的なワークロードにおけるGPUの使用のほとんどは、ハードウェアリソースの高利用のために最適化された大規模な汎用行列行列乗算(GEMM)で構成されている。本研究では,入力データをGEMMに変換し,行列形状やサイズを維持しながら,これらのカーネルの消費電力を著しく変化させることができることを示す。我々は、異なるデータ型に対して、値分布、ビット類似性、配置、間隔の4種類の入力バリエーションを実験した。以上の結果から,GEMMにおけるGPUの消費電力は,ほぼ40%変化することが示唆された。我々は、GPUにおけるビットフリップ数の変化により、入力依存の電力使用量の変化が起こると仮定する。本稿では,この特性をコンパイラとスケジューラの最適化によって利用し,電力管理と省エネルギー化を提案する。

関連論文リスト

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
Power- and Fragmentation-aware Online Scheduling for GPU Datacenters [9.29180785233729]
我々はGPUのフラグメンテーションの最小化と消費電力の削減という2つの目標に焦点を当てている。そこで本稿では,電力効率のよいGPUとCPUの組み合わせを選択することで,電力使用量を最小限に抑える新しいスケジューリングポリシーであるPWRを提案する。本稿では,PWRがFGDと組み合わせることで,消費電力削減とGPUフラグメンテーションの最小化のトレードオフを実現することを示す。
論文参考訳（メタデータ） (2024-12-23T11:27:17Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
GPU-accelerated Effective Hamiltonian Calculator [70.12254823574538]
本研究では,非摂動解析対角化法(NPAD)とマグナス拡大法に着想を得た数値解析手法を提案する。私たちの数値技術は、オープンソースPythonパッケージとして、$rm qCH_eff$で利用可能です。
論文参考訳（メタデータ） (2024-11-15T06:33:40Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)
GEVO: GPU Code Optimization using Evolutionary Computation [12.9965710635562]
GEVOは最適化の機会を発見し、LLVM表現でGPUカーネルのパフォーマンスをチューニングするためのツールである。 GEVOは、NVIDIA Tesla P100上で、Rodiniaベンチマークスイートと機械学習モデルであるSVMとResNet18におけるGPUプログラムの実行時間を改善する。 GEVOはResNet18/CIFAR-10を用いた画像分類において1.79倍の性能向上を実現し、精度は1%未満である。
論文参考訳（メタデータ） (2020-04-17T09:36:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。