論文の概要: Dissecting the Impact of Mobile DVFS Governors on LLM Inference Performance and Energy Efficiency
- arxiv url: http://arxiv.org/abs/2507.02135v1
- Date: Wed, 02 Jul 2025 20:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.180616
- Title: Dissecting the Impact of Mobile DVFS Governors on LLM Inference Performance and Energy Efficiency
- Title(参考訳): 移動型DVFS知事のLLM推論性能とエネルギー効率への影響
- Authors: Zongpu Zhang, Pranab Dash, Y. Charlie Hu, Qiang Xu, Jian Li, Haibing Guan,
- Abstract要約: 大きな言語モデル(LLM)は、数十億のモバイルデバイス上で動作するさまざまなアプリケーションやサービスに統合されつつある。
現在、リソース制限されたモバイルデバイスにLSMをデプロイすることは、計算、メモリ、最終的にはエネルギーの需要が高いため、大きな課題に直面している。
- 参考スコア(独自算出の注目度): 20.904706759529237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly being integrated into various applications and services running on billions of mobile devices. However, deploying LLMs on resource-limited mobile devices faces a significant challenge due to their high demand for computation, memory, and ultimately energy. While current LLM frameworks for mobile use three power-hungry components-CPU, GPU, and Memory-even when running primarily-GPU LLM models, optimized DVFS governors for CPU, GPU, and memory featured in modern mobile devices operate independently and are oblivious of each other. Motivated by the above observation, in this work, we first measure the energy-efficiency of a SOTA LLM framework consisting of various LLM models on mobile phones which showed the triplet mobile governors result in up to 40.4% longer prefilling and decoding latency compared to optimal combinations of CPU, GPU, and memory frequencies with the same energy consumption for sampled prefill and decode lengths. Second, we conduct an in-depth measurement study to uncover how the intricate interplay (or lack of) among the mobile governors cause the above inefficiency in LLM inference. Finally, based on these insights, we design FUSE - a unified energy-aware governor for optimizing the energy efficiency of LLM inference on mobile devices. Our evaluation using a ShareGPT dataset shows FUSE reduces the time-to-first-token and time-per-output-token latencies by 7.0%-16.9% and 25.4%-36.8% on average with the same energy-per-token for various mobile LLM models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、数十億のモバイルデバイス上で動作するさまざまなアプリケーションやサービスに統合されつつある。
しかし、リソース制限されたモバイルデバイスにLSMをデプロイすることは、計算、メモリ、最終的にはエネルギーの需要が高いため、大きな課題に直面している。
現在のモバイル向けLLMフレームワークでは、主にGPU LLMモデルを実行する場合、CPU、GPU、メモリの3つのパワーハングリーコンポーネントが使用されているが、現代のモバイルデバイスで特徴付けられるCPU、GPU、メモリのDVFSガベージコレクタは独立して動作しており、互いに無関心である。
本研究は, 携帯電話上でのLSMモデルによるSOTA LLMフレームワークのエネルギー効率を, CPU, GPU, メモリ周波数の最適組み合わせと比較して最大40.4%の遅延時間で測定し, サンプリング済みプリフィルとデコード長に対して同じエネルギー消費量で測定した。
第2に,移動型知事間の複雑な相互作用(あるいは欠如)が,LSM推論における上記の非効率性の原因となっていることを明らかにするため,詳細な測定を行った。
最後に、これらの知見に基づいて、モバイルデバイス上でのLLM推論のエネルギー効率を最適化するための統合エネルギー対応知事であるFUSEを設計する。
ShareGPT データセットを用いて評価したところ、FUSE は各移動 LLM モデルで同じエネルギー量で平均 7.0%-16.9% と 25.4%-36.8% のタイム・ツー・ファースト・トーケンおよびタイム・パー・アウトプット・トーケンのレイテンシを減少させる。
関連論文リスト
- EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Are We There Yet? A Measurement Study of Efficiency for LLM Applications on Mobile Devices [5.926813659185372]
小型の大規模言語モデル(LLM)は、大きなモデルに比べて品質に制限があるにもかかわらず、強力なモバイルデバイス上で正常に動作することができる。
小型のLDMだけが強力なモバイルデバイス上で正常に動作するが、大型のモデルに比べて品質に制限がある。
論文 参考訳(メタデータ) (2025-03-10T16:27:17Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms [11.87161637895978]
ユーザがモバイルデバイス上で大きな言語モデルを評価することができる軽量でオールインワンな自動ベンチマークフレームワークを紹介します。
ハードウェア能力の異なる複数のモバイルプラットフォームに対して、様々な量子化構成(重みとアクティベーションの両方)の異なる様々な人気のあるLCMのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-10-05T03:37:07Z) - Understanding Large Language Models in Your Pockets: Performance Study on COTS Mobile Devices [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。
ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。
急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文 参考訳(メタデータ) (2024-10-04T17:14:59Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。
我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。
我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文 参考訳(メタデータ) (2024-03-19T15:51:21Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - LEAF + AIO: Edge-Assisted Energy-Aware Object Detection for Mobile
Augmented Reality [77.00418462388525]
モバイル拡張現実(MAR)アプリケーションは非常にエネルギーを消費する。
我々は、MARデバイスが動的に構成を変更することができるエッジベースのエネルギー対応MARシステムを設計する。
提案した動的MAR構成適応は、複数のMARクライアントのフレーム当たりのエネルギー消費を最小限に抑えることができる。
論文 参考訳(メタデータ) (2022-05-27T06:11:50Z) - To Talk or to Work: Flexible Communication Compression for Energy
Efficient Federated Learning over Heterogeneous Mobile Edge Devices [78.38046945665538]
巨大なモバイルエッジデバイス上でのフェデレーション学習(FL)は、多数のインテリジェントなモバイルアプリケーションのための新たな地平を開く。
FLは、定期的なグローバル同期と継続的なローカルトレーニングにより、参加するデバイスに膨大な通信と計算負荷を課す。
フレキシブルな通信圧縮を可能にする収束保証FLアルゴリズムを開発。
論文 参考訳(メタデータ) (2020-12-22T02:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。