論文の概要: Are We There Yet? A Measurement Study of Efficiency for LLM Applications on Mobile Devices
- arxiv url: http://arxiv.org/abs/2504.00002v1
- Date: Mon, 10 Mar 2025 16:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 08:19:41.034556
- Title: Are We There Yet? A Measurement Study of Efficiency for LLM Applications on Mobile Devices
- Title(参考訳): まだあるか? モバイルデバイス用LDMアプリケーションの効率測定
- Authors: Xiao Yan, Yi Ding,
- Abstract要約: 小型の大規模言語モデル(LLM)は、大きなモデルに比べて品質に制限があるにもかかわらず、強力なモバイルデバイス上で正常に動作することができる。
小型のLDMだけが強力なモバイルデバイス上で正常に動作するが、大型のモデルに比べて品質に制限がある。
- 参考スコア(独自算出の注目度): 5.926813659185372
- License:
- Abstract: Recent advancements in large language models (LLMs) have prompted interest in deploying these models on mobile devices to enable new applications without relying on cloud connectivity. However, the efficiency constraints of deploying LLMs on resource-limited devices present significant challenges. In this paper, we conduct a comprehensive measurement study to evaluate the efficiency tradeoffs between mobile-based, edge-based, and cloud-based deployments for LLM applications. We implement AutoLife-Lite, a simplified LLM-based application that analyzes smartphone sensor data to infer user location and activity contexts. Our experiments reveal that: (1) Only small-size LLMs (<4B parameters) can run successfully on powerful mobile devices, though they exhibit quality limitations compared to larger models; (2) Model compression is effective in lower the hardware requirement, but may lead to significant performance degradation; (3) The latency to run LLMs on mobile devices with meaningful output is significant (>30 seconds), while cloud services demonstrate better time efficiency (<10 seconds); (4) Edge deployments offer intermediate tradeoffs between latency and model capabilities, with different results on CPU-based and GPU-based settings. These findings provide valuable insights for system designers on the current limitations and future directions for on-device LLM applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、これらのモデルをモバイルデバイスにデプロイして、クラウド接続に頼ることなく、新しいアプリケーションを可能にすることへの関心を喚起している。
しかし、資源制限されたデバイスにLLMをデプロイする際の効率の制約は大きな課題である。
本稿では,LLMアプリケーションのためのモバイルベース,エッジベース,クラウドベースのデプロイメント間の効率トレードオフを評価するための総合的な計測研究を行う。
スマートフォンのセンサデータを解析してユーザの位置とアクティビティのコンテキストを推測する,シンプルなLCMベースのアプリケーションであるAutoLife-Liteを実装した。
1)小型のLCM(4Bパラメータ)だけが強力なモバイルデバイス上で正常に動作可能であるが,大きなモデルと比較して品質上の制限がある。(2)モデル圧縮はハードウェア要件の低減に有効だが,大幅な性能低下につながる可能性がある。(3) 有意義な出力を持つモバイルデバイス上でLSMを実行するためのレイテンシは大きい(>30秒), クラウドサービスはより優れた時間効率を示す(<10秒), (4) エッジデプロイメントはレイテンシとモデル機能の中間的トレードオフを提供し,CPUベースの設定とGPUベースの設定が異なる。
これらの知見は、オンデバイスLCMアプリケーションの現在の限界と今後の方向性について、システム設計者に貴重な洞察を与えてくれる。
関連論文リスト
- WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms [11.87161637895978]
ユーザがモバイルデバイス上で大きな言語モデルを評価することができる軽量でオールインワンな自動ベンチマークフレームワークを紹介します。
ハードウェア能力の異なる複数のモバイルプラットフォームに対して、様々な量子化構成(重みとアクティベーションの両方)の異なる様々な人気のあるLCMのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-10-05T03:37:07Z) - Large Language Model Performance Benchmarking on Mobile Platforms: A Thorough Evaluation [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。
ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。
急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文 参考訳(メタデータ) (2024-10-04T17:14:59Z) - Mobile Edge Intelligence for Large Language Models: A Contemporary Survey [32.22789677882933]
デバイス上の大規模言語モデル(LLM)は、クラウドパラダイムと比較してコスト効率、レイテンシ効率、プライバシ保護がよい。
モバイルエッジインテリジェンス(MEI)は、モバイルネットワークのエッジにAI機能を提供することで、実行可能なソリューションを提供する。
本稿では,LLMのMEI活用に関する現代の調査を紹介する。
論文 参考訳(メタデータ) (2024-07-09T13:47:05Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。
我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。
我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文 参考訳(メタデータ) (2024-03-19T15:51:21Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。