論文の概要: BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
- arxiv url: http://arxiv.org/abs/2411.10640v1
- Date: Sat, 16 Nov 2024 00:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:42.392380
- Title: BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
- Title(参考訳): BlueLM-V-3B:モバイル端末上でのマルチモーダル大言語モデルのアルゴリズムとシステム共設計
- Authors: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li,
- Abstract要約: 本稿では,MLLMのモバイルプラットフォームへの効率的なデプロイに適した,アルゴリズムとシステムの共同設計手法であるBlueLM-V-3Bを提案する。
小型サイズ: BlueLM-V-3Bは2.7Bパラメータを持つ言語モデルと400Mパラメータを持つエンコーダビジョンを備えている。
高速: BlueLM-V-3Bは、MediaTek Dimensity 9300プロセッサの24.4トークン/秒で4ビットLLMの量子化を実現している。
- 参考スコア(独自算出の注目度): 35.44626025003408
- License:
- Abstract: The emergence and growing popularity of multimodal large language models (MLLMs) have significant potential to enhance various aspects of daily life, from improving communication to facilitating learning and problem-solving. Mobile phones, as essential daily companions, represent the most effective and accessible deployment platform for MLLMs, enabling seamless integration into everyday tasks. However, deploying MLLMs on mobile phones presents challenges due to limitations in memory size and computational capability, making it difficult to achieve smooth and real-time processing without extensive optimization. In this paper, we present BlueLM-V-3B, an algorithm and system co-design approach specifically tailored for the efficient deployment of MLLMs on mobile platforms. To be specific, we redesign the dynamic resolution scheme adopted by mainstream MLLMs and implement system optimization for hardware-aware deployment to optimize model inference on mobile phones. BlueLM-V-3B boasts the following key highlights: (1) Small Size: BlueLM-V-3B features a language model with 2.7B parameters and a vision encoder with 400M parameters. (2) Fast Speed: BlueLM-V-3B achieves a generation speed of 24.4 token/s on the MediaTek Dimensity 9300 processor with 4-bit LLM weight quantization. (3) Strong Performance: BlueLM-V-3B has attained the highest average score of 66.1 on the OpenCompass benchmark among models with $\leq$ 4B parameters and surpassed a series of models with much larger parameter sizes (e.g., MiniCPM-V-2.6, InternVL2-8B).
- Abstract(参考訳): MLLM(Multimodal large language model)の出現と普及は,コミュニケーションの改善から学習の促進,問題解決に至るまで,日常生活の様々な側面を強化する上で大きな可能性を秘めている。
携帯電話は、日々の作業にシームレスに統合できるように、MLLMにとって最も効果的でアクセスしやすいデプロイメントプラットフォームである。
しかし、携帯電話にMLLMをデプロイすることは、メモリサイズや計算能力の制限による課題であり、広範囲の最適化なしにスムーズでリアルタイムな処理を実現することは困難である。
本稿では,MLLMのモバイルプラットフォームへの効率的なデプロイに適したアルゴリズムとシステムの共同設計手法であるBlueLM-V-3Bを提案する。
具体的には,メインストリームMLLMが採用する動的解決スキームを再設計し,携帯電話上でのモデル推論を最適化するためのハードウェア対応デプロイメントのためのシステム最適化を実装した。
小さいサイズ: BlueLM-V-3Bは2.7Bパラメータを持つ言語モデルと400Mパラメータを持つビジョンエンコーダを備えている。
2)高速:BlueLM-V-3Bは4ビットLLM重み量子化を備えたMediaTek Dimensity 9300プロセッサ上で24.4トークン/秒の生成速度を達成する。
(3) 強力な性能: BlueLM-V-3B は OpenCompass ベンチマークで最高点点66.1 に達し、$\leq$ 4B のパラメータを持つモデルの中では最高点66.1 に達し、パラメータサイズがはるかに大きいモデル(例: MiniCPM-V-2.6, InternVL2-8B)を上回った。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - ELMS: Elasticized Large Language Models On Mobile Devices [5.689405542579458]
デバイス上の大規模言語モデル(LLM)は、プライバシー問題に対処しながら、UI自動化などのアプリケーションを可能にする、モバイルAIに革命をもたらしている。
ELMSは、モデルとプロンプト次元の両方で弾力性を提供するように設計されたデバイス上でのLCMサービスである。
トランスモデルに固有の置換整合性を利用して高品質で柔軟なサブモデルを作成するワンタイムリオーダーニューロニング技術。
プロンプトを効率的に洗練し、モデルプロンプト間の弾性適応をコーディネートするデュアルヘッドコンパクト言語モデル。
論文 参考訳(メタデータ) (2024-09-08T06:32:08Z) - MiniCPM-V: A GPT-4V Level MLLM on Your Phone [83.10007643273521]
MiniCPM-Vは、エンドサイドデバイスにデプロイ可能な効率的なMLLMのシリーズである。
アーキテクチャ、事前トレーニング、アライメントに最新のMLLM技術を統合することで、MiniCPM-V 2.5にはいくつかの注目すべき特徴がある。
MiniCPM-V は有望な傾向の代表的な例と見なすことができる。
論文 参考訳(メタデータ) (2024-08-03T15:02:21Z) - Demystifying Platform Requirements for Diverse LLM Inference Use Cases [7.233203254714951]
本稿では,大規模言語モデル推論性能とプラットフォーム設計パラメータの関係を明らかにするための分析ツールGenZを提案する。
LLaMA や GPT-4 のような SOTA LLM モデルをサポートするためのプラットフォーム要件を,多様なサービス設定下で定量化する。
結局のところ、この研究は、幅広いアプリケーションにまたがる大きな言語モデルの潜在能力を最大限に活用するためのプラットフォーム設計の考察に光を当てている。
論文 参考訳(メタデータ) (2024-06-03T18:00:50Z) - MobileVLM V2: Faster and Stronger Baseline for Vision Language Model [73.74838586081385]
我々は、MobileVLM上で大幅に改善された視覚言語モデルのファミリーであるMobileVLM V2を紹介する。
MobileVLM V2 1.7Bは、標準のVLMベンチマークにおいて、3Bスケールでのはるかに大きなVLMよりも優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-06T07:16:36Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。