論文の概要: MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs
- arxiv url: http://arxiv.org/abs/2509.11662v3
- Date: Tue, 30 Sep 2025 02:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.347335
- Title: MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs
- Title(参考訳): MindVL: 補助NPUを用いた多モーダル大規模言語モデルの効率的かつ効果的な訓練を目指して
- Authors: Feilong Chen, Yijiang Liu, Yi Huang, Hao Wang, Miren Tian, Ya-Qi Yu, Minghui Liao, Jihao Wu,
- Abstract要約: MindVLは、Ascend NPUでエンドツーエンドに訓練されたマルチモーダルな大規模言語モデルである。
我々は,安定かつ高性能なトレーニングを支援する,高効率なトレーニングフレームワークであるMindSpeed-MLLMを紹介した。
異なるシーケンス長でトレーニングされたチェックポイントから平均的な重み付けが特に有効であることが判明した。
- 参考スコア(独自算出の注目度): 20.842336447426682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose MindVL, a multimodal large language model (MLLMs) trained on Ascend NPUs. The training of state-of-the-art MLLMs is often confined to a limited set of hardware platforms and relies heavily on massive, undisclosed data recipes, which hinders reproducibility and open research. To change the common perception that Ascend hardware is unsuitable for efficient full-stage MLLM training, we introduce MindSpeed-MLLM, a highly efficient training framework that supports stable and high-performance training of large-scale Dense and Mixture-of-Experts (MoE) models on Ascend hardware. Based on this, we provide a systematic and open description of the data production methods and mixing strategies for all training stages. Furthermore, we present MindVL, a data-efficient multimodal large language model trained end-to-end on Ascend NPUs. In addition, we find that averaging weights from checkpoints trained with different sequence lengths is particularly effective and yields further gains when combined with test-time resolution search. Our experiments demonstrate superior data efficiency: MindVL-8B matches the performance of Qwen2.5VL-7B using only 10\% of its training data, while our MoE model, MindVL-671B-A37B, matches Qwen2.5VL-72B using only 3\% of the Qwen2.5VL training data, and achieves comparable performance with other leading multimodal MoE models. Our work provides the community with a valuable hardware alternative, open data recipes, and effective performance-enhancing techniques.
- Abstract(参考訳): Ascend NPUを訓練したマルチモーダル大規模言語モデル(MLLM)であるMindVLを提案する。
最先端のMLLMのトレーニングは、しばしば限られたハードウェアプラットフォームに限られており、再現性とオープンな研究を妨げる大量のデータレシピに大きく依存している。
Ascendハードウェアは効率的なフルステージMLLMトレーニングには適さないという一般的な認識を変えるために,Ascendハードウェア上での大規模DenseとMixture-of-Experts(MoE)モデルの安定かつ高性能なトレーニングを支援する,高効率なトレーニングフレームワークであるMindSpeed-MLLMを導入する。
これに基づいて、データ生成方法の体系的かつオープンな説明と、すべてのトレーニング段階の混合戦略を提供する。
さらに,データ効率のよいマルチモーダルな大規模言語モデルであるMindVLをAscend NPU上でエンドツーエンドに学習する。
さらに、異なるシーケンス長で訓練されたチェックポイントから平均的な重み付けが特に有効であることが分かり、テスト時間分解能探索と組み合わせることでさらなる利得が得られることがわかった。
MindVL-8B はトレーニングデータの 10 % で Qwen2.5VL-7B のパフォーマンスと一致するのに対し、MindVL-671B-A37B は Qwen2.5VL-72B のトレーニングデータの 3 % で Qwen2.5VL-72B と一致し、他の主要なマルチモーダル MoE モデルと同等の性能を達成する。
私たちの研究は、コミュニティに価値のあるハードウェア代替品、オープンデータレシピ、効果的なパフォーマンス向上技術を提供しています。
関連論文リスト
- Kwai Keye-VL Technical Report [80.53170317017147]
ショートビデオ理解のためのマルチモーダル基盤モデルである textbfKwai Keye-VL を紹介する。
Keye-VLの開発は,ビデオに重点を置いた大規模で高品質なデータセットと,革新的なトレーニングレシピという,2つのコア柱に留まっている。
提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す,広範囲な評価を行う。
論文 参考訳(メタデータ) (2025-07-02T17:57:28Z) - InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。