論文の概要: MiniCPM-V: A GPT-4V Level MLLM on Your Phone
- arxiv url: http://arxiv.org/abs/2408.01800v1
- Date: Sat, 3 Aug 2024 15:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:21:07.277856
- Title: MiniCPM-V: A GPT-4V Level MLLM on Your Phone
- Title(参考訳): MiniCPM-V:携帯のGPT-4VレベルのMLLM
- Authors: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun,
- Abstract要約: MiniCPM-Vは、エンドサイドデバイスにデプロイ可能な効率的なMLLMのシリーズである。
アーキテクチャ、事前トレーニング、アライメントに最新のMLLM技術を統合することで、MiniCPM-V 2.5にはいくつかの注目すべき特徴がある。
MiniCPM-V は有望な傾向の代表的な例と見なすことができる。
- 参考スコア(独自算出の注目度): 83.10007643273521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent surge of Multimodal Large Language Models (MLLMs) has fundamentally reshaped the landscape of AI research and industry, shedding light on a promising path toward the next AI milestone. However, significant challenges remain preventing MLLMs from being practical in real-world applications. The most notable challenge comes from the huge cost of running an MLLM with a massive number of parameters and extensive computation. As a result, most MLLMs need to be deployed on high-performing cloud servers, which greatly limits their application scopes such as mobile, offline, energy-sensitive, and privacy-protective scenarios. In this work, we present MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By integrating the latest MLLM techniques in architecture, pretraining and alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1) Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong OCR capability and 1.8M pixel high-resolution image perception at any aspect ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual support for 30+ languages, and (5) efficient deployment on mobile phones. More importantly, MiniCPM-V can be viewed as a representative example of a promising trend: The model sizes for achieving usable (e.g., GPT-4V) level performance are rapidly decreasing, along with the fast growth of end-side computation capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices are becoming increasingly possible, unlocking a wider spectrum of real-world AI applications in the near future.
- Abstract(参考訳): 最近のMLLM(Multimodal Large Language Models)の急増は、AI研究と産業のランドスケープを根本的に変え、次のAIマイルストーンへの有望な道に光を当てた。
しかし、MLLMが現実世界のアプリケーションで実用化されるのを未然に防いでいる。
最も顕著な課題は、膨大なパラメータと広範な計算量を持つMLLMの実行コストである。
その結果、ほとんどのMLLMは高性能なクラウドサーバにデプロイする必要があるため、モバイル、オフライン、エネルギー感受性、プライバシ保護のシナリオなど、アプリケーションのスコープを大幅に制限する。
本稿では,エンドサイドデバイスにデプロイ可能な,効率的なMLLMのシリーズであるMiniCPM-Vを提案する。
アーキテクチャ、事前トレーニング、アライメントに最新のMLLM技術を統合することで、(1)パフォーマンスが良く、GPT-4V-1106、Gemini Pro、Claude 3をOpenCompassで上回り、11のベンチマークを総合的に評価し、(2)OCR能力と1.8Mピクセルの高解像度画像認識をアスペクト比で評価し、(3)幻覚率の低い信頼性の高い振る舞い、(4)30以上の言語を多言語でサポートし、(5)携帯電話に効率的な展開を行う。
さらに重要なことに、MiniCPM-Vは、有望なトレンドの代表的な例として見ることができる: 使用可能な(例えば、GPT-4V)レベルのパフォーマンスを達成するためのモデルサイズは、エンドサイドの計算能力の急速な成長とともに、急速に減少している。
これは、エンドデバイスにデプロイされるGPT-4VレベルのMLLMがますます可能になりつつあることを示し、近い将来、現実世界のAIアプリケーションの幅広い範囲をアンロックする。
関連論文リスト
- BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices [35.44626025003408]
本稿では,MLLMのモバイルプラットフォームへの効率的なデプロイに適した,アルゴリズムとシステムの共同設計手法であるBlueLM-V-3Bを提案する。
小型サイズ: BlueLM-V-3Bは2.7Bパラメータを持つ言語モデルと400Mパラメータを持つエンコーダビジョンを備えている。
高速: BlueLM-V-3Bは、MediaTek Dimensity 9300プロセッサの24.4トークン/秒で4ビットLLMの量子化を実現している。
論文 参考訳(メタデータ) (2024-11-16T00:14:51Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。
我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。
実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Revolutionizing Mobile Interaction: Enabling a 3 Billion Parameter GPT
LLM on Mobile [0.0]
本稿では, 数十億のパラメータを持つLCMを, ネットワーク接続のないモバイルデバイス上で直接実行できる未来を想定する, LLM推論に対する革新的なアプローチを提案する。
この記事は、30億のパラメータを持つ微調整のGPT LLMを紹介し、4GBのメモリを持つデバイス上でスムーズに動作可能である。
ネイティブコードとモデル量子化技術の統合により、アプリケーションは汎用アシスタントとして機能するだけでなく、テキスト対アクション機能とのシームレスなモバイルインタラクションを促進する。
論文 参考訳(メタデータ) (2023-09-29T16:30:49Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。