論文の概要: Scaling Laws for Energy Efficiency of Local LLMs
- arxiv url: http://arxiv.org/abs/2512.16531v1
- Date: Thu, 18 Dec 2025 13:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.079014
- Title: Scaling Laws for Energy Efficiency of Local LLMs
- Title(参考訳): 局所LLMのエネルギー効率のスケーリング法則
- Authors: Ander Alvarez, Alessandro Genuardi, Nilotpal Sinha, Antonio Tiene, Samuel Mugel, Román Orús,
- Abstract要約: 量子にインスパイアされた圧縮はプロセッサとメモリ使用量を最大71.9%削減し、エネルギー消費を最大62%削減することを示した。
これらの結果は、ローカル言語およびビジョン言語ワークロードに対するマルチモーダル中央処理単位のみのスケーリングの体系的定量化を提供する。
- 参考スコア(独自算出の注目度): 35.76649836957099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying local large language models and vision-language models on edge devices requires balancing accuracy with constrained computational and energy budgets. Although graphics processors dominate modern artificial-intelligence deployment, most consumer hardware--including laptops, desktops, industrial controllers, and embedded systems--relies on central processing units. Despite this, the computational laws governing central-processing-unit-only inference for local language and vision-language workloads remain largely unexplored. We systematically benchmark large language and vision-language models on two representative central-processing-unit tiers widely used for local inference: a MacBook Pro M2, reflecting mainstream laptop-class deployment, and a Raspberry Pi 5, representing constrained, low-power embedded settings. Using a unified methodology based on continuous sampling of processor and memory usage together with area-under-curve integration, we characterize how computational load scales with input text length for language models and with image resolution for vision-language models. We uncover two empirical scaling laws: (1) computational cost for language-model inference scales approximately linearly with token length; and (2) vision-language models exhibit a preprocessing-driven "resolution knee", where compute remains constant above an internal resolution clamp and decreases sharply below it. Beyond these laws, we show that quantum-inspired compression reduces processor and memory usage by up to 71.9% and energy consumption by up to 62%, while preserving or improving semantic accuracy. These results provide a systematic quantification of multimodal central-processing-unit-only scaling for local language and vision-language workloads, and they identify model compression and input-resolution preprocessing as effective, low-cost levers for sustainable edge inference.
- Abstract(参考訳): エッジデバイスにローカルな大規模言語モデルとビジョン言語モデルをデプロイするには、計算とエネルギーの制約のある予算と精度のバランスをとる必要がある。
グラフィックスプロセッサは現代の人工知能デプロイメントを支配しているが、ほとんどの消費者向けハードウェア - ラップトップ、デスクトップ、産業用コントローラ、組み込みシステム - は中央処理ユニットに依存している。
それにもかかわらず、ローカル言語とビジョン言語ワークロードに対する中央処理単位のみの推論を規定する計算法則は、ほとんど未検討のままである。
ローカル推論に広く使用されている2つの代表的な中央処理ユニット層(MacBook Pro M2,メインストリームのラップトップクラスのデプロイメントを反映したRaspberry Pi 5)に対して,大規模言語とビジョン言語モデルを体系的にベンチマークした。
プロセッサとメモリの連続的なサンプリングと面積・アンダー・カーブの統合に基づく統一手法を用いて,言語モデルにおける入力テキスト長による計算負荷のスケールと,視覚言語モデルにおける画像の解像度を特徴付ける。
1) 言語モデル推論の計算コストはトークン長とほぼ線形にスケールし、(2) 視覚言語モデルは前処理駆動の「解決膝」を示し、計算は内部分解能クランプ上を一定に保たれ、その下を急激に減少する。
これらの法則を超えて、量子インスパイアされた圧縮はプロセッサとメモリ使用量を最大71.9%削減し、エネルギー消費量を最大62%削減し、セマンティックな精度を保留または改善することを示した。
これらの結果は,局所言語および視覚言語ワークロードに対して,マルチモーダル中央処理単位のみのスケーリングを体系的に定量化し,モデル圧縮と入力分解前処理を,持続可能なエッジ推論のための効率的で低コストなレバーとして同定する。
関連論文リスト
- MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.58619053719251]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。
提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文 参考訳(メタデータ) (2025-09-26T10:45:48Z) - Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Computational Bottlenecks of Training Small-scale Large Language Models [19.663560481459164]
小型の大規模言語モデル(SLM)は、消費者のコストと効率性の要求により注目されている。
本研究では,SLMの学習における計算的ボトルネックについて検討する。
私たちは、ドル当たりの損失や秒単位のトークンといったメトリクスを使用して、ポピュラーなクラウドサービス上のこれらの要因を評価します。
論文 参考訳(メタデータ) (2024-10-25T10:30:21Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。