論文の概要: ELANA: A Simple Energy and Latency Analyzer for LLMs
- arxiv url: http://arxiv.org/abs/2512.09946v1
- Date: Sun, 07 Dec 2025 18:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:41.980753
- Title: ELANA: A Simple Energy and Latency Analyzer for LLMs
- Title(参考訳): ELANA - LLM用簡易エネルギー・遅延解析器
- Authors: Hung-Yueh Chiang, Bokun Wang, Diana Marculescu,
- Abstract要約: 我々は,大規模な言語モデルを評価するための簡単なプロファイリングツールである textbfELANA をオープンソース化した。
Elanaは、モデルサイズ、キー値(KV)キャッシュサイズ、プレフィル遅延を分析するための軽量で学術的フレンドリなプロファイラとして設計されている。
Hugging Faceで利用可能なすべてのモデルをサポートし、簡単なコマンドラインインターフェースとオプションのエネルギー消費ログを提供する。
- 参考スコア(独自算出の注目度): 22.94945303866081
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The latency and power consumption of large language models (LLMs) are major constraints when serving them across a wide spectrum of hardware platforms, from mobile edge devices to cloud GPU clusters. Benchmarking is crucial for optimizing efficiency in both model deployment and next-generation model development. To address this need, we open-source a simple profiling tool, \textbf{ELANA}, for evaluating LLMs. ELANA is designed as a lightweight, academic-friendly profiler for analyzing model size, key-value (KV) cache size, prefilling latency (Time-to-first-token, TTFT), generation latency (Time-per-output-token, TPOT), and end-to-end latency (Time-to-last-token, TTLT) of LLMs on both multi-GPU and edge GPU platforms. It supports all publicly available models on Hugging Face and offers a simple command-line interface, along with optional energy consumption logging. Moreover, ELANA is fully compatible with popular Hugging Face APIs and can be easily customized or adapted to compressed or low bit-width models, making it ideal for research on efficient LLMs or for small-scale proof-of-concept studies. We release the ELANA profiling tool at: https://github.com/enyac-group/Elana.
- Abstract(参考訳): 大規模言語モデル(LLM)のレイテンシと消費電力は、モバイルエッジデバイスからクラウドGPUクラスタに至るまで、幅広いハードウェアプラットフォームでそれらを提供する際の大きな制約である。
ベンチマークは、モデルデプロイメントと次世代モデル開発の両方において、効率を最適化するために不可欠である。
このニーズに対処するために、簡単なプロファイリングツール \textbf{ELANA} をオープンソースにしてLCMを評価する。
ELANAは、モデルサイズ、キー値(KV)キャッシュサイズ、プリフィルレイテンシ(Time-to-first-token, TTFT)、生成レイテンシ(Time-per-output-token, TPOT)、マルチGPUおよびエッジGPUプラットフォーム上のLLMのエンドツーエンドレイテンシ(Time-to-last-token, TTLT)を分析するための軽量で学術的フレンドリなプロファイラとして設計されている。
Hugging Faceで利用可能なすべてのモデルをサポートし、簡単なコマンドラインインターフェースとオプションのエネルギー消費ログを提供する。
さらに、ELANAは一般的なHugging Face APIと完全に互換性があり、圧縮または低ビット幅モデルに容易にカスタマイズまたは適応できるため、効率的なLLMの研究や小規模な概念実証研究に最適である。
私たちは、ELANAプロファイリングツールをhttps://github.com/enyac-group/Elana.comでリリースします。
関連論文リスト
- lm-Meter: Unveiling Runtime Inference Latency for On-Device Language Models [7.524517279167586]
大きな言語モデル(LLM)は、日々のアプリケーションにますます統合されています。
モバイルおよびエッジデバイス(オンデバイスLDM)でLLMをローカルに実行することは、プライバシー、信頼性、通信コストの削減を約束する。
オンデバイスLSM推論に適した,最初の軽量オンライン遅延プロファイラであるlm-Meterを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:05:30Z) - Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。
LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。
我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文 参考訳(メタデータ) (2025-07-29T03:08:31Z) - Can Large Language Models Predict Parallel Code Performance? [1.5221392705893568]
本稿では,Large Language Models (LLM) がハードウェアに依存しないGPU性能予測に代替的なアプローチを提供するかどうかを考察する。
LLMはRooflineモデルについて強く理解しており、明示的なプロファイリングデータを備えた場合、100%の分類精度を達成する。
以上の結果から,より優れたデータセットと迅速な戦略により,LLMはHPCルーフライン解析および性能ポータビリティのための実用的なツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-06T21:41:20Z) - PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。
評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-03-15T15:11:17Z) - EfficientLLM: Scalable Pruning-Aware Pretraining for Architecture-Agnostic Edge Language Models [25.058673320372677]
大規模言語モデル(LLM)は法則のスケーリングによって駆動され、大規模なモデルサイズでインテリジェンス緊急を達成する。
本研究は、より大規模な最適化モデルの性能を維持することに焦点を当てたプルーニング対応事前学習を提案する。
我々は,LLM圧縮のスケールアップと境界の拡張により,高品質なエッジ言語モデルであるEfficientLLMを実現することを明らかにした。
論文 参考訳(メタデータ) (2025-02-10T16:51:03Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。