論文の概要: Characterizing and Understanding Energy Footprint and Efficiency of Small Language Model on Edges
- arxiv url: http://arxiv.org/abs/2511.11624v1
- Date: Fri, 07 Nov 2025 02:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.310648
- Title: Characterizing and Understanding Energy Footprint and Efficiency of Small Language Model on Edges
- Title(参考訳): エッジ上の小言語モデルのエネルギーフットプリントと効率性の評価と理解
- Authors: Md Romyull Islam, Bobin Deng, Nobel Dhar, Tu N. Nguyen, Selena He, Yong Shi, Kun Suo,
- Abstract要約: 本研究では,Raspberry Pi 5, Jetson Nano, TinyLlama, Gemma 2の5つの代表SLMの電力効率を評価する。
以上の結果から,GPUアクセラレーションによるJetson Orin Nanoのエネルギー対性能比が最も高いことがわかった。
- 参考スコア(独自算出の注目度): 8.45935156679082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloud-based large language models (LLMs) and their variants have significantly influenced real-world applications. Deploying smaller models (i.e., small language models (SLMs)) on edge devices offers additional advantages, such as reduced latency and independence from network connectivity. However, edge devices' limited computing resources and constrained energy budgets challenge efficient deployment. This study evaluates the power efficiency of five representative SLMs - Llama 3.2, Phi-3 Mini, TinyLlama, and Gemma 2 on Raspberry Pi 5, Jetson Nano, and Jetson Orin Nano (CPU and GPU configurations). Results show that Jetson Orin Nano with GPU acceleration achieves the highest energy-to-performance ratio, significantly outperforming CPU-based setups. Llama 3.2 provides the best balance of accuracy and power efficiency, while TinyLlama is well-suited for low-power environments at the cost of reduced accuracy. In contrast, Phi-3 Mini consumes the most energy despite its high accuracy. In addition, GPU acceleration, memory bandwidth, and model architecture are key in optimizing inference energy efficiency. Our empirical analysis offers practical insights for AI, smart systems, and mobile ad-hoc platforms to leverage tradeoffs from accuracy, inference latency, and power efficiency in energy-constrained environments.
- Abstract(参考訳): クラウドベースの大規模言語モデル(LLM)とその変種は、現実世界のアプリケーションに大きな影響を与えている。
エッジデバイスに小さなモデル(すなわち、小さな言語モデル(SLM))をデプロイすることは、レイテンシの低減やネットワーク接続からの独立性といった、さらなるアドバンテージを提供する。
しかし、エッジデバイスの限られたコンピューティングリソースと制約されたエネルギー予算は効率的なデプロイメントに挑戦する。
本研究では,Raspberry Pi 5, Jetson Nano, Jetson Orin Nano(CPUおよびGPU構成)上での5つの代表的なSLM(Llama 3.2, Phi-3 Mini, TinyLlama, Gemma 2)の電力効率を評価する。
以上の結果から,Jetson Orin NanoとGPUアクセラレーションは高いエネルギー対性能比を達成し,CPUベースの構成よりも大幅に優れていた。
Llama 3.2は精度と電力効率の最良のバランスを提供するが、TinyLlamaは低消費電力環境に適している。
対照的に、Phi-3 Miniは高い精度にもかかわらず最もエネルギーを消費する。
さらに、GPUアクセラレーション、メモリ帯域幅、モデルアーキテクチャは、推論エネルギー効率を最適化する上で重要である。
私たちの経験分析は、AI、スマートシステム、モバイルアドホックプラットフォームに対して、エネルギー制約のある環境での正確性、推論レイテンシ、電力効率からのトレードオフを活用するための実践的な洞察を提供します。
関連論文リスト
- Evaluating the Energy Efficiency of NPU-Accelerated Machine Learning Inference on Embedded Microcontrollers [0.0]
本稿では、ニューラルネットワークユニット(NPU)が機械学習(ML)の実行とマイクロコントローラ(MCU)に与える影響を評価する。
推論をNPUにオフロードすると、かなりの効率が向上する。
中程度のネットワークから大規模なネットワークでは、レイテンシの改善は7倍から125倍を超え、参照毎のネットエネルギーは143倍まで削減された。
論文 参考訳(メタデータ) (2025-09-22T08:52:54Z) - Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - Neuromorphic Principles for Efficient Large Language Models on Intel Loihi 2 [5.213433310722838]
大きな言語モデル(LLM)は優れたパフォーマンスを提供するが、大量のエネルギーを必要とする。
We present a MatMul-free LLM architecture with Intel's neuromorphic processor, Loihi 2。
当社のアプローチでは,ローヒ2の低精度,イベント駆動型計算,ステートフル処理のサポートを活用している。
論文 参考訳(メタデータ) (2025-02-12T02:40:44Z) - Benchmarking Deep Learning Models for Object Detection on Edge Computing Devices [0.0]
YOLOv8 (Nano, Small, Medium), EfficientDet Lite (Lite0, Lite1, Lite2), SSD (SSD MobileNet V1, SSDLite MobileDet) など,最先端のオブジェクト検出モデルの評価を行った。
これらのモデルをRaspberry Pi 3、4、5、TPUアクセラレーター、Jetson Orin Nanoといった一般的なエッジデバイスにデプロイし、エネルギー消費、推論時間、平均精度(mAP)といった重要なパフォーマンス指標を収集しました。
この結果から,SSD MobileNet V1などの低mAPモデルの方がエネルギー効率が高く,高速であることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T10:56:49Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。