論文の概要: MNN-AECS: Energy Optimization for LLM Decoding on Mobile Devices via Adaptive Core Selection
- arxiv url: http://arxiv.org/abs/2506.19884v1
- Date: Tue, 24 Jun 2025 04:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.471569
- Title: MNN-AECS: Energy Optimization for LLM Decoding on Mobile Devices via Adaptive Core Selection
- Title(参考訳): MNN-AECS:アダプティブコア選択によるモバイルデバイス上でのLCMデコーディングのエネルギー最適化
- Authors: Zhengxiang Huang, Chaoyue Niu, Zhaode Wang, Jiarui Xue, Hanming Zhang, Yugang Wang, Zewei Xin, Xiaotang Jiang, Chengfei Lv, Fan Wu, Guihai Chen,
- Abstract要約: エネルギー効率は、オンデバイス大言語モデル(LLM)の推論において大きな関心事である。
我々は、適応エネルギー中心コア選択(AECS)を導入し、それをMNNに統合し、エネルギー効率の良いMNN-AECSを作成する。
- 参考スコア(独自算出の注目度): 23.890938793344525
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As the demand for on-device Large Language Model (LLM) inference grows, energy efficiency has become a major concern, especially for battery-limited mobile devices. Our analysis shows that the memory-bound LLM decode phase dominates energy use, and yet most existing works focus on accelerating the prefill phase, neglecting energy concerns. We introduce Adaptive Energy-Centric Core Selection (AECS) and integrate it into MNN to create the energy-efficient version, MNN-AECS, the first engine-level system solution without requiring root access or OS modifications for energy-efficient LLM decoding. MNN-AECS is designed to reduce LLM decoding energy while keeping decode speed within an acceptable slowdown threshold by dynamically selecting low-power CPU cores. MNN-AECS is evaluated across 5 Android and 2 iOS devices on 5 popular LLMs of various sizes. Compared to original MNN, MNN-AECS cuts down energy use by 23% without slowdown averaged over all 7 devices and 4 datasets. Against other engines, including llama.cpp, executorch, mllm, and MediaPipe, MNN-AECS delivers 39% to 78% energy saving and 12% to 363% speedup on average.
- Abstract(参考訳): オンデバイス大規模言語モデル(LLM)の需要が増大するにつれて、特に電池限定のモバイルデバイスにおいて、エネルギー効率が大きな関心事となっている。
解析の結果, メモリバウンドLDMデコード相がエネルギー利用を支配していることがわかったが, 既存のほとんどの研究は, プリフィル相の加速に重点を置いており, エネルギーの懸念を無視している。
我々は,適応型エネルギー中心コア選択(AECS)を導入し,それをMNNに統合し,エネルギー効率の高いLCMデコードのためのルートアクセスやOS修正を必要とせずに,最初のエンジンレベルのシステムソリューションであるMNN-AECSを開発した。
MNN-AECSは、低消費電力CPUコアを動的に選択することで、復号速度を許容する減速閾値内に保ちながら、LCM復号エネルギーを削減するように設計されている。
MNN-AECSは5つのAndroidデバイスと2つのiOSデバイスで、さまざまなサイズの5つの人気のあるLCMで評価されている。
オリジナルのMNNと比較して、MNN-AECSは7つのデバイスと4つのデータセットで平均的にスローダウンすることなく、エネルギー使用量を23%削減する。
llama.cpp、executorch、mllm、MediaPipeなどの他のエンジンに対して、MNN-AECSは平均で39%から78%の省エネと12%から363%のスピードアップを実現している。
関連論文リスト
- EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Advancing Generative Artificial Intelligence and Large Language Models for Demand Side Management with Internet of Electric Vehicles [52.43886862287498]
本稿では,大規模言語モデル(LLM)のエネルギー管理への統合について検討する。
本稿では、自動問題定式化、コード生成、カスタマイズ最適化のために、LLMを検索拡張生成で強化する革新的なソリューションを提案する。
本稿では,電気自動車の充電スケジューリングと最適化における提案手法の有効性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2025-01-26T14:31:03Z) - SNN4Agents: A Framework for Developing Energy-Efficient Embodied Spiking Neural Networks for Autonomous Agents [6.110543738208028]
スパイキングニューラルネットワーク(SNN)は、イベントベースのカメラやデータ変換前処理からのスパイクを使用して、スパース計算を効率的に行う。
本稿では,エネルギー効率の良いSNNを設計するための最適化手法からなるSNN4Agentsという新しいフレームワークを提案する。
我々のフレームワークは、68.75%のメモリ節約、3.58倍のスピードアップ、4.03倍のエネルギー効率で高い精度(84.12%の精度)を維持することができる。
論文 参考訳(メタデータ) (2024-04-14T19:06:00Z) - Multiagent Reinforcement Learning with an Attention Mechanism for
Improving Energy Efficiency in LoRa Networks [52.96907334080273]
ネットワーク規模が大きくなるにつれて、パケット衝突によるLoRaネットワークのエネルギー効率は急激に低下する。
マルチエージェント強化学習(MALoRa)に基づく伝送パラメータ割り当てアルゴリズムを提案する。
シミュレーションの結果,MALoRaはベースラインアルゴリズムと比較してシステムEEを著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:37:23Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Ultra-Low Power Keyword Spotting at the Edge [0.0]
キーワードスポッティング(KWS)は、私たちを取り巻く多くのインテリジェントデバイスの中で、不可欠である。
そこで本研究では,MAX78000における配置におけるエンド・ツー・エンドのエネルギー効率を考慮した最適化KWS CNNモデルを設計する。
ハードウェアとモデル最適化の組み合わせにより、12クラスの96.3%の精度を実現し、推論あたり251 uJしか消費しない。
論文 参考訳(メタデータ) (2021-11-09T08:24:36Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z) - MNN: A Universal and Efficient Inference Engine [6.830174586230231]
Mobile Neural Network (MNN) は、モバイルアプリケーションに適した汎用的で効率的な推論エンジンである。
MNN のコントリビューションには,(1) ランタイム最適化の実行を管理するプリ推論と呼ばれるメカニズムの提示,(2) 最適なパフォーマンスを達成するために演算子にカーネル最適化を提供する,(3) ハイブリッドスケジューリングを可能にするバックエンド抽象化モジュールの導入,エンジンの軽量化などが含まれている。
論文 参考訳(メタデータ) (2020-02-27T20:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。