論文の概要: MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe
- arxiv url: http://arxiv.org/abs/2509.18154v1
- Date: Tue, 16 Sep 2025 19:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.42812
- Title: MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe
- Title(参考訳): MiniCPM-V 4.5: アーキテクチャ、データ、トレーニングレシピによる効率的なMLLMの調理
- Authors: Tianyu Yu, Zefan Wang, Chongyi Wang, Fuwei Huang, Wenshuo Ma, Zhihui He, Tianchi Cai, Weize Chen, Yuxiang Huang, Yuanqian Zhao, Bokai Xu, Junbo Cui, Yingjing Xu, Liqing Ruan, Luoyuan Zhang, Hanyu Liu, Jingkun Tang, Hongyuan Liu, Qining Guo, Wenhao Hu, Bingxiang He, Jie Zhou, Jie Cai, Ji Qi, Zonghao Guo, Chi Chen, Guoyang Zeng, Yuxuan Li, Ganqu Cui, Ning Ding, Xu Han, Yuan Yao, Zhiyuan Liu, Maosong Sun,
- Abstract要約: MiniCPM-V 4.5は8Bパラメータモデルであり、高効率で高性能に設計されている。
本稿では,モデルアーキテクチャ,データストラテジー,トレーニング手法の3つの改良点を紹介する。
MiniCPM-V 4.5は30B以下のモデル間で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 68.04078852416248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are undergoing rapid progress and represent the frontier of AI development. However, their training and inference efficiency have emerged as a core bottleneck in making MLLMs more accessible and scalable. To address the challenges, we present MiniCPM-V 4.5, an 8B parameter model designed for high efficiency and strong performance. We introduce three core improvements in model architecture, data strategy and training method: a unified 3D-Resampler model architecture for highly compact encoding over images and videos, a unified learning paradigm for document knowledge and text recognition without heavy data engineering, and a hybrid reinforcement learning strategy for proficiency in both short and long reasoning modes. Comprehensive experimental results in OpenCompass evaluation show that MiniCPM-V 4.5 surpasses widely used proprietary models such as GPT-4o-latest, and significantly larger open-source models such as Qwen2.5-VL 72B. Notably, the strong performance is achieved with remarkable efficiency. For example, on the widely adopted VideoMME benchmark, MiniCPM-V 4.5 achieves state-of-the-art performance among models under 30B size, using just 46.7\% GPU memory cost and 8.7\% inference time of Qwen2.5-VL 7B.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、AI開発の最前線として急速に進歩している。
しかし、それらのトレーニングと推論の効率は、MLLMをより使いやすく、スケーラブルにする上でのボトルネックとして現れています。
この課題に対処するため,高効率・高性能な8BパラメータモデルであるMiniCPM-V 4.5を提案する。
本稿では,3つのモデルアーキテクチャ,データストラテジー,トレーニング手法のコアとなる3つの改良点を紹介する。画像や動画を超コンパクトに符号化するための3D-Resamplerモデルアーキテクチャ,重いデータ工学を伴わない文書知識とテキスト認識のための統一学習パラダイム,短所および長所の推論モードにおける習熟のためのハイブリッド強化学習戦略である。
OpenCompass 評価の総合的な実験結果から,MiniCPM-V 4.5 は GPT-4o-latest などの広く使われているプロプライエタリモデル,Qwen2.5-VL 72B のようなはるかに大きなオープンソースモデルを上回ることが示された。
特に、強い性能は驚くほどの効率で達成される。
例えば、広く採用されている VideoMME ベンチマークでは、MiniCPM-V 4.5 は Qwen2.5-VL 7B の 46.7 % GPU メモリコストと 8.7 % の推論時間を使って、30B 以下のモデル間で最先端のパフォーマンスを達成する。
関連論文リスト
- MiniCPM4: Ultra-Efficient LLMs on End Devices [126.22958722174583]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - SmolVLM: Redefining small and efficient multimodal models [8.849350918179752]
SmolVLMは、資源効率のよい推論のために特別に設計されたコンパクトなマルチモーダルモデルである。
メモリフットプリントが最小限である画像およびビデオタスクにおいて,大幅なパフォーマンス向上をもたらす重要な設計選択を特定する。
この結果から,戦略的アーキテクチャ最適化,積極的なトークン化,厳密なトレーニングデータによりマルチモーダル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-07T17:58:57Z) - Apollo: An Exploration of Video Understanding in Large Multimodal Models [65.06400672040836]
本稿では,大規模マルチモーダルモデルにおいて映像理解を効果的に推進する要因を明らかにする研究について述べる。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れている。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
論文 参考訳(メタデータ) (2024-12-13T18:53:24Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [18.954681684239358]
本稿では,様々な視覚言語タスクを対象とした効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。
言語モデル280億のパラメータで、TinyGPT-VはVQAと画像推論タスクにおいて、より大きなパラメータに匹敵する結果を達成している。
論文 参考訳(メタデータ) (2023-12-28T07:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。