論文の概要: FlipFlop: A Static Analysis-based Energy Optimization Framework for GPU Kernels
- arxiv url: http://arxiv.org/abs/2601.13345v1
- Date: Mon, 19 Jan 2026 19:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.034135
- Title: FlipFlop: A Static Analysis-based Energy Optimization Framework for GPU Kernels
- Title(参考訳): FlipFlop:GPUカーネルのための静的解析に基づくエネルギー最適化フレームワーク
- Authors: Saurabhsingh Rajput, Alexander Brandt, Vadim Elisseev, Tushar Sharma,
- Abstract要約: FlipFlopは、静的コード解析を使用してエネルギー消費を予測し、最適なスレッドブロック構成を推奨するフレームワークである。
最適エネルギー効率の設定を83%の精度で識別すると同時に、最適化検索スペースを93.4%削減することで開発者の努力を最小限に抑える。
マルチヘッドアテンションカーネルでは、NVIDIAの占有率に対して最大79%の省エネと106%のスループット向上を達成している。
- 参考スコア(独自算出の注目度): 38.75222180281849
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Artificial Intelligence (AI) applications, such as Large Language Models, are primarily driven and executed by Graphics Processing Units (GPUs). These GPU programs (kernels) consume substantial amounts of energy, yet software developers often lack the hardware expertise and ad hoc knowledge required to optimize for power efficiency. We propose FlipFlop, a framework using static code analysis to predict energy consumption and recommend Pareto-optimal thread block configurations considering both power consumption and execution time. Our framework requires no runtime execution and analyzes PTX code, a low-level instruction set for CUDA-enabled GPUs. It is validated across a diverse set of GPUs and kernels, including multi-head attention, convolution, and matrix multiplication. FlipFlop achieves 83% accuracy in identifying locally optimal energy-efficient configurations, while also minimizing developer effort by reducing the optimization search space by 93.4%. For multi-head attention kernels, it yields up to 79% energy savings and 106% throughput gains relative to NVIDIA's occupancy heuristic. By integrating static analysis with real-time monitoring and providing explainable optimization guidance, FlipFlop empowers developers to create sustainable, high-performance GPU software which minimizes environmental and computational costs.
- Abstract(参考訳): 大規模言語モデルのような人工知能(AI)アプリケーションは、主にグラフィックス処理ユニット(GPU)によって駆動され、実行される。
これらのGPUプログラム(カーネル)は、かなりのエネルギーを消費するが、ソフトウェア開発者は、電力効率の最適化に必要なハードウェアの専門知識とアドホックな知識を欠いていることが多い。
FlipFlopは、静的コード解析を用いてエネルギー消費を予測するフレームワークであり、電力消費と実行時間の両方を考慮したパレート最適スレッドブロック構成を推奨する。
本フレームワークは,CUDA対応GPUの低レベル命令セットであるPTXコードを解析する。
マルチヘッドアテンション、畳み込み、行列乗算など、GPUとカーネルの多様なセットで検証されている。
FlipFlopは、局所最適エネルギー効率の設定を83%精度で識別すると同時に、最適化検索スペースを93.4%削減することで開発者の努力を最小化している。
マルチヘッドアテンションカーネルでは、NVIDIAの占有ヒューリスティックと比較して最大79%の省エネと106%のスループット向上を達成している。
静的解析をリアルタイム監視に統合し、説明可能な最適化ガイダンスを提供することで、FlipFlopは開発者が環境と計算コストを最小限に抑える持続可能な高性能GPUソフトウェアを作成することができる。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - A GPU Implementation of Multi-Guiding Spark Fireworks Algorithm for Efficient Black-Box Neural Network Optimization [2.9608128305931825]
本稿では,Multi-Guiding Spark Fireworks Algorithm (MGFWA)のGPU高速化版を提案する。
スピードとソリューションの品質の両方において、その優れた性能を示します。
提案した実装は、Swarmインテリジェンスアルゴリズムを高速化するための有望なアプローチを提供する。
論文 参考訳(メタデータ) (2025-01-07T17:09:07Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Power Constrained Autotuning using Graph Neural Networks [1.7188280334580197]
本稿では,最新のプロセッサ上での科学応用の性能,パワー,エネルギー効率を向上させるための,グラフニューラルネットワークに基づく新しい自動チューニング手法を提案する。
提案手法では,標準のOpenMP構成に対して,平均的な幾何的性能改善が25%以上,13%以上となる,異なる電力制約でOpenMP構成を識別する。
論文 参考訳(メタデータ) (2023-02-22T16:06:00Z) - Source Code Classification for Energy Efficiency in Parallel Ultra
Low-Power Microcontrollers [5.4352987210173955]
本稿では,ソフトウェアツールチェーンの知性を向上し,最新のアーキテクチャを最大限に活用することを目的とする。
低電力の並列組込みアーキテクチャの場合、これは、例えばコア数の観点から構成を見つけることを意味し、最小限のエネルギー消費につながる。
実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。
論文 参考訳(メタデータ) (2020-12-12T15:12:03Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。