論文の概要: Scaling Laws for Energy Efficiency of Local LLMs
- arxiv url: http://arxiv.org/abs/2512.16531v3
- Date: Tue, 23 Dec 2025 15:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 13:10:52.722499
- Title: Scaling Laws for Energy Efficiency of Local LLMs
- Title(参考訳): 局所LLMのエネルギー効率のスケーリング法則
- Authors: Ander Alvarez, Alessandro Genuardi, Nilotpal Sinha, Antonio Tiene, Mikail Okyay, Bakbergen Ryskulov, David Montero, Samuel Mugel, Román Orús,
- Abstract要約: 量子にインスパイアされた圧縮はプロセッサとメモリ使用量を最大71.9%削減し、エネルギー消費を最大62%削減することを示した。
これらの結果は、ローカル言語およびビジョン言語ワークロードに対するマルチモーダル中央処理単位のみのスケーリングの体系的定量化を提供する。
- 参考スコア(独自算出の注目度): 32.19667243434334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying local large language models and vision-language models on edge devices requires balancing accuracy with constrained computational and energy budgets. Although graphics processors dominate modern artificial-intelligence deployment, most consumer hardware--including laptops, desktops, industrial controllers, and embedded systems--relies on central processing units. Despite this, the computational laws governing central-processing-unit-only inference for local language and vision-language workloads remain largely unexplored. We systematically benchmark large language and vision-language models on two representative central-processing-unit tiers widely used for local inference: a MacBook Pro M2, reflecting mainstream laptop-class deployment, and a Raspberry Pi 5, representing constrained, low-power embedded settings. Using a unified methodology based on continuous sampling of processor and memory usage together with area-under-curve integration, we characterize how computational load scales with input text length for language models and with image resolution for vision-language models. We uncover two empirical scaling laws: (1) computational cost for language-model inference scales approximately linearly with token length; and (2) vision-language models exhibit a preprocessing-driven "resolution knee", where compute remains constant above an internal resolution clamp and decreases sharply below it. Beyond these laws, we show that quantum-inspired compression reduces processor and memory usage by up to 71.9% and energy consumption by up to 62%, while preserving or improving semantic accuracy. These results provide a systematic quantification of multimodal central-processing-unit-only scaling for local language and vision-language workloads, and they identify model compression and input-resolution preprocessing as effective, low-cost levers for sustainable edge inference.
- Abstract(参考訳): エッジデバイスにローカルな大規模言語モデルとビジョン言語モデルをデプロイするには、計算とエネルギーの制約のある予算と精度のバランスをとる必要がある。
グラフィックスプロセッサは現代の人工知能デプロイメントを支配しているが、ほとんどの消費者向けハードウェア - ラップトップ、デスクトップ、産業用コントローラ、組み込みシステム - は中央処理ユニットに依存している。
それにもかかわらず、ローカル言語とビジョン言語ワークロードに対する中央処理単位のみの推論を規定する計算法則は、ほとんど未検討のままである。
ローカル推論に広く使用されている2つの代表的な中央処理ユニット層(MacBook Pro M2,メインストリームのラップトップクラスのデプロイメントを反映したRaspberry Pi 5)に対して,大規模言語とビジョン言語モデルを体系的にベンチマークした。
プロセッサとメモリの連続的なサンプリングと面積・アンダー・カーブの統合に基づく統一手法を用いて,言語モデルにおける入力テキスト長による計算負荷のスケールと,視覚言語モデルにおける画像の解像度を特徴付ける。
1) 言語モデル推論の計算コストはトークン長とほぼ線形にスケールし、(2) 視覚言語モデルは前処理駆動の「解決膝」を示し、計算は内部分解能クランプ上を一定に保たれ、その下を急激に減少する。
これらの法則を超えて、量子インスパイアされた圧縮はプロセッサとメモリ使用量を最大71.9%削減し、エネルギー消費量を最大62%削減し、セマンティックな精度を保留または改善することを示した。
これらの結果は,局所言語および視覚言語ワークロードに対して,マルチモーダル中央処理単位のみのスケーリングを体系的に定量化し,モデル圧縮と入力分解前処理を,持続可能なエッジ推論のための効率的で低コストなレバーとして同定する。
関連論文リスト
- MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.58619053719251]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。
提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文 参考訳(メタデータ) (2025-09-26T10:45:48Z) - Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs [24.657525276719365]
VLA(Vision-Language-Action)モデルは、ロボット制御のための強力なジェネラリストポリシーとして登場した。
本研究は,5つの代表的なVLAモデルの評価を行う。
レイテンシ、スループット、ピークメモリ使用量など、システムレベルのメトリクスとともに精度を測定します。
論文 参考訳(メタデータ) (2025-09-15T00:00:37Z) - Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Computational Bottlenecks of Training Small-scale Large Language Models [19.663560481459164]
小型の大規模言語モデル(SLM)は、消費者のコストと効率性の要求により注目されている。
本研究では,SLMの学習における計算的ボトルネックについて検討する。
私たちは、ドル当たりの損失や秒単位のトークンといったメトリクスを使用して、ポピュラーなクラウドサービス上のこれらの要因を評価します。
論文 参考訳(メタデータ) (2024-10-25T10:30:21Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Efficiency-oriented approaches for self-supervised speech representation
learning [1.860144985630098]
自己教師付き学習は、大きなラベル付きデータセットを必要とせずに、大きなニューラルネットワークモデルのトレーニングを可能にする。
コンピュータビジョン、自然言語処理、生物学、音声など、いくつかの分野で画期的な成果を上げている。
現在の努力にもかかわらず、自己教師付き表現学習における高い計算コストに対応するために、より多くの作業を行うことができる。
論文 参考訳(メタデータ) (2023-12-18T12:32:42Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。