論文の概要: Sustainability Is Not Linear: Quantifying Performance, Energy, and Privacy Trade-offs in On-Device Intelligence
- arxiv url: http://arxiv.org/abs/2603.26603v1
- Date: Fri, 27 Mar 2026 17:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.610276
- Title: Sustainability Is Not Linear: Quantifying Performance, Energy, and Privacy Trade-offs in On-Device Intelligence
- Title(参考訳): サステナビリティは線形ではない - オンデバイスインテリジェンスにおけるパフォーマンス、エネルギー、プライバシのトレードオフの定量化
- Authors: Eziyo Ehsani, Luca Giamattei, Ivano Malavolta, Roberto Pietrantuono,
- Abstract要約: 大規模言語モデルにおけるエネルギー消費,レイテンシ,品質の相互作用について検討する。
フラッグシップAndroidデバイスであるSamsung Galaxy S25 Ultraについて、実証的なケーススタディを行いました。
我々の調査では、反直感的な量子化-エネルギーパラドックスが発見された。
- 参考スコア(独自算出の注目度): 8.06653461490703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The migration of Large Language Models (LLMs) from cloud clusters to edge devices promises enhanced privacy and offline accessibility, but this transition encounters a harsh reality: the physical constraints of mobile batteries, thermal limits, and, most importantly, memory constraints. To navigate this landscape, we constructed a reproducible experimental pipeline to profile the complex interplay between energy consumption, latency, and quality. Unlike theoretical studies, we captured granular power metrics across eight models ranging from 0.5B to 9B parameters without requiring root access, ensuring our findings reflect realistic user conditions. We harness this pipeline to conduct an empirical case study on a flagship Android device, the Samsung Galaxy S25 Ultra, establishing foundational hypotheses regarding the trade-offs between generation quality, performance, and resource consumption. Our investigation uncovered a counter-intuitive quantization-energy paradox. While modern importance-aware quantization successfully reduces memory footprints to fit larger models into RAM, we found it yields negligible energy savings compared to standard mixed-precision methods. This proves that for battery life, the architecture of the model, not its quantization scheme, is the decisive factor. We further identified that Mixture-of-Experts (MoE) architectures defy the standard size-energy trend, offering the storage capacity of a 7B model while maintaining the lower energy profile of a 1B to 2B model. Finally, an analysis of these multi-objective trade-offs reveals a pragmatic sweet spot of mid-sized models, such as Qwen2.5-3B, that effectively balance response quality with sustainable energy consumption.
- Abstract(参考訳): クラウドクラスタからエッジデバイスへの大規模言語モデル(LLM)のマイグレーションは、プライバシーとオフラインアクセシビリティの向上を約束するが、この移行は厳しい現実に直面する。
この環境をナビゲートするために、エネルギー消費、レイテンシ、品質の間の複雑な相互作用をプロファイルする再現可能な実験パイプラインを構築しました。
理論的研究とは異なり、ルートアクセスを必要とせず、0.5Bから9Bのパラメータを含む8つのモデルでグラニュラーパワーの測定を行い、実際のユーザ条件を確実に反映した。
このパイプラインを利用して、フラッグシップAndroidデバイスであるSamsung Galaxy S25 Ultraに関する実証的なケーススタディを行い、世代品質、パフォーマンス、リソース消費のトレードオフに関する基礎的な仮説を確立します。
我々の調査では、反直感的な量子化-エネルギーパラドックスが発見された。
現代の重要度を考慮した量子化は、メモリフットプリントをRAMに適合させるために、メモリフットプリントをうまく削減するが、標準的な混合精度法と比較して、無視可能な省エネが得られることがわかった。
これは、バッテリ寿命にとって、その量子化スキームではなく、モデルのアーキテクチャが決定的な要素であることを証明している。
さらに,Mixture-of-Experts (MoE) アーキテクチャは標準サイズエネルギーの傾向に反し,1B〜2Bモデルの低エネルギープロファイルを維持しつつ,7Bモデルのストレージ容量を提供する。
最後に、これらの多目的トレードオフの分析により、Qwen2.5-3Bのような中規模モデルの現実的なスイートスポットが示され、応答品質と持続可能なエネルギー消費とを効果的にバランスさせる。
関連論文リスト
- MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - CoMoE: Collaborative Optimization of Expert Aggregation and Offloading for MoE-based LLMs at Edge [28.961186929739082]
大規模言語モデル(LLM)は、計算コストを制御しながらモデルキャパシティをスケールする有望なソリューションとして、Mixture-of-Experts (MoE)アーキテクチャを採用した。
リソース制約のあるモバイルエッジコンピューティング環境にMoEモデルをデプロイすることは、大きなメモリフットプリントと動的専門家アクティベーションパターンのため、大きな課題となる。
本稿では,エキスパートアグリゲーションとオフロード戦略を協調的に最適化する,動的リソース対応協調最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-10T14:05:36Z) - Physics-Guided Memory Network for Building Energy Modeling [0.7499722271664147]
本稿では,ディープラーニングモデルと物理モデルからの予測を統合し,それらの制約に対処するニューラルネットワークであるPgMNを紹介する。
PgMNは、スマートグリッドとスマートビルディングシステムにおける運用上の意思決定において重要な、短時間のエネルギー予測で評価された。
論文 参考訳(メタデータ) (2025-08-05T15:16:19Z) - Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge [3.1471494780647795]
最近の傾向はコンパクトモデル(典型的には量子化のような技術によって100億のパラメータが許容される)に注目が集まっていることを示している。
このシフトは、エッジデバイス上でのLMの道を開き、プライバシーの強化、レイテンシの低減、データ主権の向上といった潜在的なメリットを提供する。
本稿では,CPUベースおよびGPUアクセラレーションエッジデバイスにおけるジェネレーティブLM推論の総合評価を行う。
論文 参考訳(メタデータ) (2025-03-12T07:01:34Z) - ACCEPT: Diagnostic Forecasting of Battery Degradation Through Contrastive Learning [0.0]
この研究は、基本的なバッテリー劣化モデルを確立し、様々なバッテリータイプと運転条件の信頼性の高い予測を提供する。
我々の新しいフレームワークは、コントラスト学習を用いて、基礎となる物理劣化パラメータと観測可能な操作量との関係をマッピングする。
論文 参考訳(メタデータ) (2025-01-17T12:13:04Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、専門的な深層モデルから汎用的な基礎モデルへと進化してきた。
LLMは、ローカルデータセットの微調整と、ネットワークエッジ上のデプロイメントのためのかなりのメモリを必要とする。
LLMは、画像、オーディオ、ビデオ、マルチモーダルコンテンツを作成するために、テキスト生成を超えて拡張されている。
LLMの持続的成長を支援するため,モデル微調整およびモデル圧縮技術が開発されている。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - TinyM$^2$Net-V3: Memory-Aware Compressed Multimodal Deep Neural Networks for Sustainable Edge Deployment [0.5893124686141782]
この研究はTinyM$2$Net-V3を導入し、相補的なデータの異なるモジュラリティを処理し、ディープニューラルネットワーク(DNN)モデルを設計し、モデル圧縮技術を採用している。
私たちの小さな機械学習モデルは、リソース制限されたハードウェア上にデプロイされ、ミリ秒以内の低レイテンシと非常に高い電力効率を示しました。
論文 参考訳(メタデータ) (2024-05-20T20:03:51Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - Physics-informed CoKriging model of a redox flow battery [68.8204255655161]
レドックスフロー電池(RFB)は、大量のエネルギーを安価かつ効率的に貯蔵する機能を提供する。
RFBの充電曲線の高速かつ正確なモデルが必要であり、バッテリ容量と性能が向上する可能性がある。
RFBの電荷分配曲線を予測する多相モデルを構築した。
論文 参考訳(メタデータ) (2021-06-17T00:49:55Z) - Multi-Agent Meta-Reinforcement Learning for Self-Powered and Sustainable
Edge Computing Systems [87.4519172058185]
エッジコンピューティング機能を有するセルフパワー無線ネットワークの効率的なエネルギー分配機構について検討した。
定式化問題を解くために,新しいマルチエージェントメタ強化学習(MAMRL)フレームワークを提案する。
実験の結果、提案されたMAMRLモデルは、再生不可能なエネルギー使用量を最大11%削減し、エネルギーコストを22.4%削減できることが示された。
論文 参考訳(メタデータ) (2020-02-20T04:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。