論文の概要: lm-Meter: Unveiling Runtime Inference Latency for On-Device Language Models
- arxiv url: http://arxiv.org/abs/2510.06126v1
- Date: Tue, 07 Oct 2025 17:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.369605
- Title: lm-Meter: Unveiling Runtime Inference Latency for On-Device Language Models
- Title(参考訳): lm-Meter: オンデバイス言語モデルに対する実行時推論レイテンシの解放
- Authors: Haoxin Wang, Xiaolong Tu, Hongyu Ke, Huirong Chai, Dawei Chen, Kyungtae Han,
- Abstract要約: 大きな言語モデル(LLM)は、日々のアプリケーションにますます統合されています。
モバイルおよびエッジデバイス(オンデバイスLDM)でLLMをローカルに実行することは、プライバシー、信頼性、通信コストの削減を約束する。
オンデバイスLSM推論に適した,最初の軽量オンライン遅延プロファイラであるlm-Meterを提案する。
- 参考スコア(独自算出の注目度): 7.524517279167586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into everyday applications, but their prevalent cloud-based deployment raises growing concerns around data privacy and long-term sustainability. Running LLMs locally on mobile and edge devices (on-device LLMs) offers the promise of enhanced privacy, reliability, and reduced communication costs. However, realizing this vision remains challenging due to substantial memory and compute demands, as well as limited visibility into performance-efficiency trade-offs on resource-constrained hardware. We propose lm-Meter, the first lightweight, online latency profiler tailored for on-device LLM inference. lm-Meter captures fine-grained, real-time latency at both phase (e.g., embedding, prefill, decode, softmax, sampling) and kernel levels without auxiliary devices. We implement lm-Meter on commercial mobile platforms and demonstrate its high profiling accuracy with minimal system overhead, e.g., only 2.58% throughput reduction in prefill and 0.99% in decode under the most constrained Powersave governor. Leveraging lm-Meter, we conduct comprehensive empirical studies revealing phase- and kernel-level bottlenecks in on-device LLM inference, quantifying accuracy-efficiency trade-offs, and identifying systematic optimization opportunities. lm-Meter provides unprecedented visibility into the runtime behavior of LLMs on constrained platforms, laying the foundation for informed optimization and accelerating the democratization of on-device LLM systems. Code and tutorials are available at https://github.com/amai-gsu/LM-Meter.
- Abstract(参考訳): 大規模言語モデル(LLM)は、日々のアプリケーションにますます統合されているが、その主流であるクラウドベースのデプロイメントは、データのプライバシと長期的なサステナビリティに関する懸念を高めている。
モバイルおよびエッジデバイス(オンデバイスLDM)でLLMをローカルに実行することは、プライバシー、信頼性、通信コストの削減を約束する。
しかし、このビジョンを実現することは、メモリと計算の要求が大きくなり、リソース制約のあるハードウェアにおけるパフォーマンス効率のトレードオフの可視化が制限されるため、依然として困難である。
オンデバイスLSM推論に適した,最初の軽量オンライン遅延プロファイラであるlm-Meterを提案する。
lm-Meterは、両方のフェーズ(例えば、埋め込み、プリフィル、デコード、ソフトマックス、サンプリング)とカーネルレベルにおいて補助デバイスなしで、きめ細かなリアルタイムレイテンシをキャプチャする。
商用モバイルプラットフォームにlm-Meterを実装し,システムオーバーヘッドを最小限に抑えながら高いプロファイリング精度を示す。
lm-Meterを活用することで、オンデバイスLCM推論における位相レベルのボトルネックとカーネルレベルのボトルネックを明らかにし、精度と効率のトレードオフを定量化し、体系的な最適化の機会を特定する。
lm-Meterは、制約のあるプラットフォーム上でのLLMの実行時の挙動を前例のない可視性を提供し、デバイス上でのLLMシステムの民主化を加速する情報最適化の基礎を築いた。
コードとチュートリアルはhttps://github.com/amai-gsu/LM-Meter.comで公開されている。
関連論文リスト
- Dissecting the Impact of Mobile DVFS Governors on LLM Inference Performance and Energy Efficiency [20.904706759529237]
大きな言語モデル(LLM)は、数十億のモバイルデバイス上で動作するさまざまなアプリケーションやサービスに統合されつつある。
現在、リソース制限されたモバイルデバイスにLSMをデプロイすることは、計算、メモリ、最終的にはエネルギーの需要が高いため、大きな課題に直面している。
論文 参考訳(メタデータ) (2025-07-02T20:47:40Z) - Are We There Yet? A Measurement Study of Efficiency for LLM Applications on Mobile Devices [5.926813659185372]
小型の大規模言語モデル(LLM)は、大きなモデルに比べて品質に制限があるにもかかわらず、強力なモバイルデバイス上で正常に動作することができる。
小型のLDMだけが強力なモバイルデバイス上で正常に動作するが、大型のモデルに比べて品質に制限がある。
論文 参考訳(メタデータ) (2025-03-10T16:27:17Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Mobile Edge Intelligence for Large Language Models: A Contemporary Survey [32.22789677882933]
デバイス上の大規模言語モデル(LLM)は、クラウドパラダイムと比較してコスト効率、レイテンシ効率、プライバシ保護がよい。
モバイルエッジインテリジェンス(MEI)は、モバイルネットワークのエッジにAI機能を提供することで、実行可能なソリューションを提供する。
本稿では,LLMのMEI活用に関する現代の調査を紹介する。
論文 参考訳(メタデータ) (2024-07-09T13:47:05Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。