論文の概要: MindGPT-4ov: An Enhanced MLLM via a Multi-Stage Post-Training Paradigm
- arxiv url: http://arxiv.org/abs/2512.02895v1
- Date: Tue, 02 Dec 2025 16:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.955595
- Title: MindGPT-4ov: An Enhanced MLLM via a Multi-Stage Post-Training Paradigm
- Title(参考訳): MindGPT-4ov:マルチステージポストトレーニングパラダイムによる拡張MLLM
- Authors: Wei Chen, Chaoqun Du, Feng Gu, Wei He, Qizhen Li, Zide Liu, Xuhao Pan, Chang Ren, Xudong Rao, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Yufei Zheng, Chunpeng Zhou, Pan Zhou, Xuhan Zhu,
- Abstract要約: MindGPT-4ovは、データ生産、モデルトレーニング、効率的なデプロイメントにまたがる一般的なポストトレーニングパラダイムである。
複数のベンチマークにまたがって、最先端のパフォーマンスを低コストで達成する。
MindGPT-4ovは垂直ドメインタスクにおいて優れたユーザエクスペリエンスを示す。
- 参考スコア(独自算出の注目度): 25.7631608456086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MindGPT-4ov, a multimodal large language model (MLLM) that introduces a general post-training paradigm spanning data production, model training, and efficient deployment. It achieves state-of-the-art performance across multiple benchmarks at low cost, effectively enhancing the foundational capabilities of MLLMs and the generalization ability. Focusing on data construction, supervised fine-tuning strategies, and multimodal reinforcement learning methods, this work proposes three key innovations: (1) An information density-based data generation scheme, integrated with a dual-dimensional tree-structured label system, enabling automated generation of high-quality cross-domain data. (2) A collaborative curriculum supervised fine-tuning approach that balances the injection of domain-specific knowledge with the preservation of general capabilities. (3) A hybrid reinforcement learning paradigm that enhances reasoning ability while simultaneously addressing multi-objective optimization such as diversity exploration, maintenance of multimodal perception, and response conciseness. Moreover, we implement a series of infrastructure optimizations, such as 5D parallel training, operator optimization, and inference quantization to enhance training and inference efficiency while reducing the cost of domain adaptation. Experimental results demonstrate that the MindGPT-4ov model outperforms state-of-the-art models on benchmarks such as MMBench, MMStar, MathVision, and MathVista. In addition, MindGPT-4ov also demonstrates superior user experience in vertical domain tasks, enabling a seamless transition from academic research to industrial deployment. MindGPT-4ov provides a general post-training paradigm applicable to a wide range of MLLMs. The model weights, datasets, and code for the Qwen3-VL-based variants will be recently open-sourced to support the community's development of MLLMs.
- Abstract(参考訳): 我々は、データ生産、モデルトレーニング、効率的なデプロイメントにまたがる一般的なポストトレーニングパラダイムを導入するマルチモーダルな大規模言語モデル(MLLM)であるMindGPT-4ovを提案する。
複数のベンチマークの最先端性能を低コストで達成し、MLLMの基礎的能力と一般化能力を効果的に強化する。
1)2次元木構造ラベルシステムと統合された情報密度に基づくデータ生成方式により,高品質なクロスドメインデータの自動生成が可能となる。
2) ドメイン固有の知識の注入と一般能力の維持を両立させる微調整を指導する共同カリキュラム。
3)多様性探索,マルチモーダル知覚の維持,応答簡潔性といった多目的最適化を同時に実現しつつ,推論能力を高めるハイブリッド強化学習パラダイム。
さらに,5次元並列トレーニングや演算子最適化,推論量子化といった一連のインフラストラクチャ最適化を実装し,ドメイン適応のコストを低減しつつ,トレーニングと推論効率を向上させる。
実験の結果,MindGPT-4ovモデルはMMBench,MMStar,MathVision,MathVistaなどのベンチマークにおいて,最先端モデルよりも優れていた。
さらにMindGPT-4ovは、垂直ドメインタスクにおける優れたユーザエクスペリエンスを示し、学術研究から産業展開へのシームレスな移行を可能にします。
MindGPT-4ovは、幅広いMLLMに適用可能な一般的なポストトレーニングパラダイムを提供する。
Qwen3-VLベースのモデルウェイト、データセット、コードは、コミュニティのMLLM開発をサポートするために、最近オープンソース化される予定である。
関連論文リスト
- Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。