論文の概要: Efficient Deployment of Vision-Language Models on Mobile Devices: A Case Study on OnePlus 13R
- arxiv url: http://arxiv.org/abs/2507.08505v1
- Date: Fri, 11 Jul 2025 11:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.34232
- Title: Efficient Deployment of Vision-Language Models on Mobile Devices: A Case Study on OnePlus 13R
- Title(参考訳): モバイルデバイスにおけるビジョンランゲージモデルの効率的な展開:OnePlus 13Rを事例として
- Authors: Pablo Robin Guerrero, Yueyang Pan, Sanidhya Kashyap,
- Abstract要約: Vision-Language Models (VLM) はモバイルデバイスに有望な機能を提供するが、そのデプロイメントは計算の制限とエネルギー効率の低下によって困難に直面している。
本研究は、モバイルデバイス上でのVLMのデプロイメントフレームワークに関する総合的な調査を行い、llama、MLC-Imp、mllmを評価した。
- 参考スコア(独自算出の注目度): 1.747235124122244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) offer promising capabilities for mobile devices, but their deployment faces significant challenges due to computational limitations and energy inefficiency, especially for real-time applications. This study provides a comprehensive survey of deployment frameworks for VLMs on mobile devices, evaluating llama.cpp, MLC-Imp, and mllm in the context of running LLaVA-1.5 7B, MobileVLM-3B, and Imp-v1.5 3B as representative workloads on a OnePlus 13R. Each deployment framework was evaluated on the OnePlus 13R while running VLMs, with measurements covering CPU, GPU, and NPU utilization, temperature, inference time, power consumption, and user experience. Benchmarking revealed critical performance bottlenecks across frameworks: CPU resources were consistently over-utilized during token generation, while GPU and NPU accelerators were largely unused. When the GPU was used, primarily for image feature extraction, it was saturated, leading to degraded device responsiveness. The study contributes framework-level benchmarks, practical profiling tools, and an in-depth analysis of hardware utilization bottlenecks, highlighting the consistent overuse of CPUs and the ineffective or unstable use of GPUs and NPUs in current deployment frameworks.
- Abstract(参考訳): VLM(Vision-Language Models)はモバイルデバイスに有望な機能を提供するが、特にリアルタイムアプリケーションにおいて、計算上の制限とエネルギーの非効率性のために、その展開は重大な課題に直面している。
本研究は,OnePlus 13Rの代表的なワークロードとして,LLaVA-1.5 7B,MobileVLM-3B,Imp-v1.5 3Bの実行状況において,llama.cpp,MLC-Imp,mllmを評価し,モバイルデバイス上のVLMのデプロイメントフレームワークを総合的に調査する。
各デプロイメントフレームワークは、VLMを実行中にOnePlus 13R上で評価され、CPU、GPU、NPUの利用状況、温度、推測時間、消費電力、ユーザエクスペリエンスを計測した。
CPUリソースはトークン生成時に一貫して過剰に利用され、GPUとNPUアクセラレータはほとんど使われていない。
GPUが主に画像特徴抽出に使用されると、飽和状態となり、デバイスの応答性が低下した。
この研究は、フレームワークレベルのベンチマーク、実用的なプロファイリングツール、ハードウェア利用ボトルネックの詳細な分析に貢献し、CPUの一貫して過剰使用と、現在のデプロイメントフレームワークにおけるGPUとNPUの非効率あるいは不安定な使用を強調している。
関連論文リスト
- Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。
LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。
我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文 参考訳(メタデータ) (2025-07-29T03:08:31Z) - PIPO: Pipelined Offloading for Efficient Inference on Consumer Devices [13.786008100564185]
我々は、消費者デバイス上で効率的な推論を行うための、パイプラインオフロード(PIPO)と呼ばれる新しいフレームワークを提案する。
PIPOは、推論のための高効率なスケジューリングを実現するために、最適化されたデータ転送と計算を補完するきめ細かいオフロードパイプラインを設計する。
論文 参考訳(メタデータ) (2025-03-15T08:48:38Z) - Real-Time Semantic Segmentation of Aerial Images Using an Embedded U-Net: A Comparison of CPU, GPU, and FPGA Workflows [0.0]
本研究では,航空画像のリアルタイムセマンティックセグメンテーションに最適化された軽量なU-Netモデルを提案する。
実世界のデータセット上でのU-Netの精度を維持しながら、モデルのパラメータと乗算(MAC)操作を16。
論文 参考訳(メタデータ) (2025-03-07T08:33:28Z) - PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms [11.87161637895978]
ユーザがモバイルデバイス上で大きな言語モデルを評価することができる軽量でオールインワンな自動ベンチマークフレームワークを紹介します。
ハードウェア能力の異なる複数のモバイルプラットフォームに対して、様々な量子化構成(重みとアクティベーションの両方)の異なる様々な人気のあるLCMのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-10-05T03:37:07Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。
我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。
我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文 参考訳(メタデータ) (2024-03-19T15:51:21Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。