論文の概要: MiniCPM-V: A GPT-4V Level MLLM on Your Phone
- arxiv url: http://arxiv.org/abs/2408.01800v1
- Date: Sat, 3 Aug 2024 15:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:21:07.277856
- Title: MiniCPM-V: A GPT-4V Level MLLM on Your Phone
- Title(参考訳): MiniCPM-V:携帯のGPT-4VレベルのMLLM
- Authors: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun,
- Abstract要約: MiniCPM-Vは、エンドサイドデバイスにデプロイ可能な効率的なMLLMのシリーズである。
アーキテクチャ、事前トレーニング、アライメントに最新のMLLM技術を統合することで、MiniCPM-V 2.5にはいくつかの注目すべき特徴がある。
MiniCPM-V は有望な傾向の代表的な例と見なすことができる。
- 参考スコア(独自算出の注目度): 83.10007643273521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent surge of Multimodal Large Language Models (MLLMs) has fundamentally reshaped the landscape of AI research and industry, shedding light on a promising path toward the next AI milestone. However, significant challenges remain preventing MLLMs from being practical in real-world applications. The most notable challenge comes from the huge cost of running an MLLM with a massive number of parameters and extensive computation. As a result, most MLLMs need to be deployed on high-performing cloud servers, which greatly limits their application scopes such as mobile, offline, energy-sensitive, and privacy-protective scenarios. In this work, we present MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By integrating the latest MLLM techniques in architecture, pretraining and alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1) Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong OCR capability and 1.8M pixel high-resolution image perception at any aspect ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual support for 30+ languages, and (5) efficient deployment on mobile phones. More importantly, MiniCPM-V can be viewed as a representative example of a promising trend: The model sizes for achieving usable (e.g., GPT-4V) level performance are rapidly decreasing, along with the fast growth of end-side computation capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices are becoming increasingly possible, unlocking a wider spectrum of real-world AI applications in the near future.
- Abstract(参考訳): 最近のMLLM(Multimodal Large Language Models)の急増は、AI研究と産業のランドスケープを根本的に変え、次のAIマイルストーンへの有望な道に光を当てた。
しかし、MLLMが現実世界のアプリケーションで実用化されるのを未然に防いでいる。
最も顕著な課題は、膨大なパラメータと広範な計算量を持つMLLMの実行コストである。
その結果、ほとんどのMLLMは高性能なクラウドサーバにデプロイする必要があるため、モバイル、オフライン、エネルギー感受性、プライバシ保護のシナリオなど、アプリケーションのスコープを大幅に制限する。
本稿では,エンドサイドデバイスにデプロイ可能な,効率的なMLLMのシリーズであるMiniCPM-Vを提案する。
アーキテクチャ、事前トレーニング、アライメントに最新のMLLM技術を統合することで、(1)パフォーマンスが良く、GPT-4V-1106、Gemini Pro、Claude 3をOpenCompassで上回り、11のベンチマークを総合的に評価し、(2)OCR能力と1.8Mピクセルの高解像度画像認識をアスペクト比で評価し、(3)幻覚率の低い信頼性の高い振る舞い、(4)30以上の言語を多言語でサポートし、(5)携帯電話に効率的な展開を行う。
さらに重要なことに、MiniCPM-Vは、有望なトレンドの代表的な例として見ることができる: 使用可能な(例えば、GPT-4V)レベルのパフォーマンスを達成するためのモデルサイズは、エンドサイドの計算能力の急速な成長とともに、急速に減少している。
これは、エンドデバイスにデプロイされるGPT-4VレベルのMLLMがますます可能になりつつあることを示し、近い将来、現実世界のAIアプリケーションの幅広い範囲をアンロックする。
関連論文リスト
- Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。
しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。
LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-01-04T07:44:49Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices [35.44626025003408]
本稿では,MLLMのモバイルプラットフォームへの効率的なデプロイに適した,アルゴリズムとシステムの共同設計手法であるBlueLM-V-3Bを提案する。
小型サイズ: BlueLM-V-3Bは2.7Bパラメータを持つ言語モデルと400Mパラメータを持つエンコーダビジョンを備えている。
高速: BlueLM-V-3Bは、MediaTek Dimensity 9300プロセッサの24.4トークン/秒で4ビットLLMの量子化を実現している。
論文 参考訳(メタデータ) (2024-11-16T00:14:51Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Revolutionizing Mobile Interaction: Enabling a 3 Billion Parameter GPT
LLM on Mobile [0.0]
本稿では, 数十億のパラメータを持つLCMを, ネットワーク接続のないモバイルデバイス上で直接実行できる未来を想定する, LLM推論に対する革新的なアプローチを提案する。
この記事は、30億のパラメータを持つ微調整のGPT LLMを紹介し、4GBのメモリを持つデバイス上でスムーズに動作可能である。
ネイティブコードとモデル量子化技術の統合により、アプリケーションは汎用アシスタントとして機能するだけでなく、テキスト対アクション機能とのシームレスなモバイルインタラクションを促進する。
論文 参考訳(メタデータ) (2023-09-29T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。