Fugu-MT 論文翻訳(概要): EdgeProfiler: A Fast Profiling Framework for Lightweight LLMs on Edge Using Analytical Model

論文の概要: EdgeProfiler: A Fast Profiling Framework for Lightweight LLMs on Edge Using Analytical Model

arxiv url: http://arxiv.org/abs/2506.09061v1
Date: Fri, 06 Jun 2025 01:56:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:01.60296
Title: EdgeProfiler: A Fast Profiling Framework for Lightweight LLMs on Edge Using Analytical Model
Title（参考訳）: EdgeProfiler:分析モデルを用いたエッジ上の軽量LLMの高速プロファイリングフレームワーク
Authors: Alyssa Pinnock, Shakya Jayakody, Kawsher A Roxy, Md Rubel Ahmed,
Abstract要約: 本稿では,エッジシステム上での軽量大言語モデル(LLM)を評価するためのフレームワークであるEdgeProfilerを紹介する。このフレームワークはTinyLLaMA、Gemma3.1B、Llama3.2-1B、DeepSeek-r1-1.5BなどのコンパクトなLCMをプロファイルしている。プロファイリングにより,4ビット量子化によりモデルメモリ使用量を約60～70%削減し,精度は2～5%に抑えられた。
参考スコア（独自算出の注目度）: 0.44998333629984877
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces EdgeProfiler, a fast profiling framework designed for evaluating lightweight Large Language Models (LLMs) on edge systems. While LLMs offer remarkable capabilities in natural language understanding and generation, their high computational, memory, and power requirements often confine them to cloud environments. EdgeProfiler addresses these challenges by providing a systematic methodology for assessing LLM performance in resource-constrained edge settings. The framework profiles compact LLMs, including TinyLLaMA, Gemma3.1B, Llama3.2-1B, and DeepSeek-r1-1.5B, using aggressive quantization techniques and strict memory constraints. Analytical modeling is used to estimate latency, FLOPs, and energy consumption. The profiling reveals that 4-bit quantization reduces model memory usage by approximately 60-70%, while maintaining accuracy within 2-5% of full-precision baselines. Inference speeds are observed to improve by 2-3x compared to FP16 baselines across various edge devices. Power modeling estimates a 35-50% reduction in energy consumption for INT4 configurations, enabling practical deployment on hardware such as Raspberry Pi 4/5 and Jetson Orin Nano Super. Our findings emphasize the importance of efficient profiling tailored to lightweight LLMs in edge environments, balancing accuracy, energy efficiency, and computational feasibility.
Abstract（参考訳）: 本稿では,エッジシステム上での軽量大言語モデル(LLM)の評価を目的とした高速プロファイリングフレームワークであるEdgeProfilerを紹介する。 LLMは自然言語の理解と生成において顕著な能力を提供するが、その高い計算量、メモリ、電力要求はしばしばクラウド環境に閉じ込められる。 EdgeProfilerは、リソース制約のあるエッジ設定でLLMのパフォーマンスを評価するための体系的な方法論を提供することによって、これらの課題に対処する。このフレームワークは、TinyLLaMA、Gemma3.1B、Llama3.2-1B、DeepSeek-r1-1.5BなどのコンパクトなLCMを、積極的な量子化技術と厳密なメモリ制約を使ってプロファイルする。解析モデリングは、遅延、FLOP、エネルギー消費を推定するために用いられる。プロファイリングにより,4ビット量子化によりモデルメモリ使用量を約60～70%削減し,精度は2～5%に抑えられた。各種エッジデバイスにおけるFP16ベースラインと比較して,推測速度は2～3倍向上する。パワーモデリングは、INT4構成のエネルギー消費を35-50%削減し、Raspberry Pi 4/5やJetson Orin Nano Superのようなハードウェアに実用的な展開を可能にすると見積もっている。本研究は, エッジ環境における軽量LLMに適した効率的なプロファイリングの重要性, 精度のバランス, エネルギー効率, 計算実現可能性を強調した。

関連論文リスト

Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文参考訳（メタデータ） (2025-05-21T02:23:01Z)
EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T02:27:08Z)
Pruning-Based TinyML Optimization of Machine Learning Models for Anomaly Detection in Electric Vehicle Charging Infrastructure [8.29566258132752]
本稿では,EVCIを対象とする資源制約環境における異常検出のためのプルーニング手法について検討する。最適化されたモデルは、モデルのサイズと推論時間の大幅な削減を実現しました。特に,EVCIでは,プルーニングとFSが重要な異常検出能力を保ちながら,計算効率を向上させることが示唆された。
論文参考訳（メタデータ） (2025-03-19T00:18:37Z)
A Hybrid Swarm Intelligence Approach for Optimizing Multimodal Large Language Models Deployment in Edge-Cloud-based Federated Learning Environments [10.72166883797356]
Federated Learning (FL)、Multimodal Large Language Models (MLLM)、エッジ・クラウド・コンピューティングは分散およびリアルタイムのデータ処理を可能にする。そこで本研究では,MLLMを十分なリソースとバッテリ寿命を備えたエッジデバイスにデプロイするハイブリッドフレームワークを提案する。実験の結果,提案手法はシステム性能を大幅に向上し,92%の精度を実現し,通信コストを30%削減し,クライアントの参加性を高めた。
論文参考訳（メタデータ） (2025-02-04T03:03:24Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文参考訳（メタデータ） (2024-12-13T02:26:54Z)
ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。 ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文参考訳（メタデータ） (2024-06-24T13:41:08Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。