論文の概要: AGFT: An Adaptive GPU Frequency Tuner for Real-Time LLM Inference Optimization
- arxiv url: http://arxiv.org/abs/2508.01744v1
- Date: Sun, 03 Aug 2025 13:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.043511
- Title: AGFT: An Adaptive GPU Frequency Tuner for Real-Time LLM Inference Optimization
- Title(参考訳): AGFT:リアルタイムLLM推論最適化のための適応型GPU周波数チューナ
- Authors: Zicong Ye, Kunming Zhang, Guoming Tang,
- Abstract要約: 我々は、オンライン強化学習を用いて最適な周波数調整ポリシーを自律的に学習するフレームワークであるAGFT(An Adaptive GPU Frequency Tuner)を提案する。
AGFTは、パフォーマンス遅延のオーバーヘッドを10%以下に抑えながら、44.3%のGPUエネルギー消費を削減できたことを示す。
- 参考スコア(独自算出の注目度): 3.7086562665861464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosive growth of interactive Large Language Models (LLMs) has placed unprecedented demands for low latency on cloud GPUs, forcing them into high-power modes and causing escalating energy costs. Real-time inference workloads exhibit significant dynamic volatility, presenting substantial energy-saving opportunities. However, traditional static or rule-based power management strategies struggle to exploit these opportunities without compromising peak performance. To address this challenge, we propose AGFT (An Adaptive GPU Frequency Tuner), a framework that employs online reinforcement learning to autonomously learn an optimal frequency tuning policy. By monitoring real-time features like request load and latency, AGFT utilizes fine-grained frequency control for precise adjustments and intelligent action space pruning for stable, efficient decision-making. This creates a robust, automated energy management solution. We comprehensively evaluated AGFT in an environment simulating realistic, fluctuating inference requests. The experimental results demonstrate that AGFT successfully saves 44.3% of GPU energy consumption while introducing a minimal performance latency overhead of under 10%. This achievement translates into a comprehensive Energy-Delay Product (EDP) optimization of up to 40.3%, clearly showing that our framework can significantly enhance the energy efficiency and economic benefits of existing LLM inference clusters without compromising service quality.
- Abstract(参考訳): インタラクティブなLarge Language Models(LLMs)の爆発的な成長により、クラウドGPUの低レイテンシに対する前例のない要求が生まれ、それらが高電力モードに強制され、エネルギーコストが増大した。
リアルタイム推論のワークロードは、大きな動的ボラティリティを示し、省エネの機会を提供する。
しかし、従来の静的またはルールベースの電力管理戦略は、ピークパフォーマンスを損なうことなくこれらの機会を活用するのに苦労する。
この課題に対処するために、オンライン強化学習を用いて最適な周波数調整ポリシーを自律的に学習するフレームワークであるAGFT(An Adaptive GPU Frequency Tuner)を提案する。
要求の負荷やレイテンシなどのリアルタイム機能を監視することにより,精密な調整やインテリジェントなアクションスペースのプルーニング,安定的で効率的な意思決定など,詳細な周波数制御を実現している。
これにより、堅牢で自動化されたエネルギー管理ソリューションが生まれる。
我々は、現実的で変動する推論要求をシミュレートする環境でAGFTを包括的に評価した。
実験の結果、AGFTはパフォーマンス遅延のオーバーヘッドを10%以下に抑えながら、44.3%のGPUエネルギー消費を削減できた。
この成果は, サービス品質を損なうことなく, 既存のLLM推論クラスタのエネルギー効率と経済性を大幅に向上させることができることを示すため, 最大40.3%の総合的なエネルギー遅延製品(EDP)最適化に変換される。
関連論文リスト
- EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Energy-Aware Dynamic Neural Inference [39.04688735618206]
エネルギーハーベスターと有限容量エネルギーストレージを備えたオンデバイス適応型推論システムを提案する。
環境エネルギーの速度が増加するにつれて、エネルギー・信頼性を考慮した制御方式は精度を約5%向上させることが示されている。
我々は、信頼性を意識し、認識できないコントローラを理論的に保証する原則的なポリシーを導出する。
論文 参考訳(メタデータ) (2024-11-04T16:51:22Z) - A Green Multi-Attribute Client Selection for Over-The-Air Federated Learning: A Grey-Wolf-Optimizer Approach [5.277822313069301]
OTA(Over-the-air)FLは、デバイス間直接接続や集中型サーバを使わずにモデルアップデートを広めることによって、これらの課題に対処するために導入された。
OTA-FLは、エネルギー消費の増大とネットワーク遅延の制限を引き起こした。
本稿では,グレイオオカミ(GWO)を用いた多属性クライアント選択フレームワークを提案し,各ラウンドの参加者数を戦略的に制御する。
論文 参考訳(メタデータ) (2024-09-16T20:03:57Z) - DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency [7.073435885680335]
そこで我々はDynamoLLMを提案する。DynamoLLMは、生成型大規模言語モデルのための最初のエネルギー管理フレームワークである。
サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転二酸化炭素を節約し、顧客へのコストを61%削減する。
論文 参考訳(メタデータ) (2024-08-01T17:40:45Z) - Enhancing User Experience in On-Device Machine Learning with Gated Compression Layers [0.0]
オンデバイス機械学習(ODML)は強力なエッジアプリケーションを実現するが、リソース制約のあるデバイスにとって電力消費は依然として重要な課題である。
本研究は,パワーを保ちながらODMLモデル性能を向上させるため,GC(Gated Compression)層の利用に焦点を当てる。
GCレイヤは、ニューラルネットワーク内のニューロンの活性化を選択的にゲーティングし、非必要入力を効果的にフィルタリングすることで、データフローを動的に制御する。
論文 参考訳(メタデータ) (2024-05-02T21:18:06Z) - EdgeOL: Efficient in-situ Online Learning on Edge Devices [51.86178757050963]
予測精度、微調整実行時間、エネルギー効率を最適化するエッジオンライン学習フレームワークであるEdgeOLを提案する。
実験結果から、EdgeOLは、全体の微調整実行時間を64%削減し、エネルギー消費を52%削減し、オンラインの即時学習戦略よりも平均推定精度を1.75%向上させることがわかった。
論文 参考訳(メタデータ) (2024-01-30T02:41:05Z) - FROST: Towards Energy-efficient AI-on-5G Platforms -- A GPU Power
Capping Evaluation [6.250006646141444]
Open Radio Access Network (O-RAN)は機械学習(ML)の統合による最適化の理想的なターゲットである
FROST - オンライン・システム・チューニングを用いたフレキシブル・リコンフィグレーション(フレキシブル・リコンフィグレーション)手法を提案することで、この重要な側面に対処する。
FROSTは、MLパイプラインのエネルギー消費をプロファイリングし、それに応じてハードウェアを最適化し、パワードローを制限することができる。
以上の結果から,FROSTはモデルの精度を損なうことなく最大26.4%の省エネが可能であった。
論文 参考訳(メタデータ) (2023-10-17T10:28:28Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with Online Learning [55.08287089554127]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - Distributed Energy Management and Demand Response in Smart Grids: A
Multi-Agent Deep Reinforcement Learning Framework [53.97223237572147]
本稿では、自律制御と再生可能エネルギー資源のスマート電力グリッドシステムへの統合のための多エージェント深層強化学習(DRL)フレームワークを提案する。
特に,提案フレームワークは,住宅利用者に対する需要応答 (DR) と分散エネルギー管理 (DEM) を共同で検討している。
論文 参考訳(メタデータ) (2022-11-29T01:18:58Z) - Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization [57.88118988775461]
本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。
エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
論文 参考訳(メタデータ) (2021-05-19T01:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。