論文の概要: EdgeProfiler: A Fast Profiling Framework for Lightweight LLMs on Edge Using Analytical Model
- arxiv url: http://arxiv.org/abs/2506.09061v1
- Date: Fri, 06 Jun 2025 01:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.60296
- Title: EdgeProfiler: A Fast Profiling Framework for Lightweight LLMs on Edge Using Analytical Model
- Title(参考訳): EdgeProfiler:分析モデルを用いたエッジ上の軽量LLMの高速プロファイリングフレームワーク
- Authors: Alyssa Pinnock, Shakya Jayakody, Kawsher A Roxy, Md Rubel Ahmed,
- Abstract要約: 本稿では,エッジシステム上での軽量大言語モデル(LLM)を評価するためのフレームワークであるEdgeProfilerを紹介する。
このフレームワークはTinyLLaMA、Gemma3.1B、Llama3.2-1B、DeepSeek-r1-1.5BなどのコンパクトなLCMをプロファイルしている。
プロファイリングにより,4ビット量子化によりモデルメモリ使用量を約60~70%削減し,精度は2~5%に抑えられた。
- 参考スコア(独自算出の注目度): 0.44998333629984877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces EdgeProfiler, a fast profiling framework designed for evaluating lightweight Large Language Models (LLMs) on edge systems. While LLMs offer remarkable capabilities in natural language understanding and generation, their high computational, memory, and power requirements often confine them to cloud environments. EdgeProfiler addresses these challenges by providing a systematic methodology for assessing LLM performance in resource-constrained edge settings. The framework profiles compact LLMs, including TinyLLaMA, Gemma3.1B, Llama3.2-1B, and DeepSeek-r1-1.5B, using aggressive quantization techniques and strict memory constraints. Analytical modeling is used to estimate latency, FLOPs, and energy consumption. The profiling reveals that 4-bit quantization reduces model memory usage by approximately 60-70%, while maintaining accuracy within 2-5% of full-precision baselines. Inference speeds are observed to improve by 2-3x compared to FP16 baselines across various edge devices. Power modeling estimates a 35-50% reduction in energy consumption for INT4 configurations, enabling practical deployment on hardware such as Raspberry Pi 4/5 and Jetson Orin Nano Super. Our findings emphasize the importance of efficient profiling tailored to lightweight LLMs in edge environments, balancing accuracy, energy efficiency, and computational feasibility.
- Abstract(参考訳): 本稿では,エッジシステム上での軽量大言語モデル(LLM)の評価を目的とした高速プロファイリングフレームワークであるEdgeProfilerを紹介する。
LLMは自然言語の理解と生成において顕著な能力を提供するが、その高い計算量、メモリ、電力要求はしばしばクラウド環境に閉じ込められる。
EdgeProfilerは、リソース制約のあるエッジ設定でLLMのパフォーマンスを評価するための体系的な方法論を提供することによって、これらの課題に対処する。
このフレームワークは、TinyLLaMA、Gemma3.1B、Llama3.2-1B、DeepSeek-r1-1.5BなどのコンパクトなLCMを、積極的な量子化技術と厳密なメモリ制約を使ってプロファイルする。
解析モデリングは、遅延、FLOP、エネルギー消費を推定するために用いられる。
プロファイリングにより,4ビット量子化によりモデルメモリ使用量を約60~70%削減し,精度は2~5%に抑えられた。
各種エッジデバイスにおけるFP16ベースラインと比較して,推測速度は2~3倍向上する。
パワーモデリングは、INT4構成のエネルギー消費を35-50%削減し、Raspberry Pi 4/5やJetson Orin Nano Superのようなハードウェアに実用的な展開を可能にすると見積もっている。
本研究は, エッジ環境における軽量LLMに適した効率的なプロファイリングの重要性, 精度のバランス, エネルギー効率, 計算実現可能性を強調した。
関連論文リスト
- Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Pruning-Based TinyML Optimization of Machine Learning Models for Anomaly Detection in Electric Vehicle Charging Infrastructure [8.29566258132752]
本稿では,EVCIを対象とする資源制約環境における異常検出のためのプルーニング手法について検討する。
最適化されたモデルは、モデルのサイズと推論時間の大幅な削減を実現しました。
特に,EVCIでは,プルーニングとFSが重要な異常検出能力を保ちながら,計算効率を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-03-19T00:18:37Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。