論文の概要: Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources
- arxiv url: http://arxiv.org/abs/2504.00595v2
- Date: Wed, 02 Apr 2025 11:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:09.026845
- Title: Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources
- Title(参考訳): Open-Qwen2VL: 学術資源を用いた完全オープンマルチモーダルLCMの計算効率向上
- Authors: Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan,
- Abstract要約: 我々は,29M画像テキストペア上で効率よく事前学習された完全オープンソース2BパラメータであるOpen-Qwen2VLを紹介する。
トレーニングは、Qwen2-VLの1.4Tマルチモーダル事前学習トークンの0.36%である5B充填マルチモーダルトークンにおいて、学術レベル8xA100-40Gで実施された。
最後の命令調整されたOpen-Qwen2VLは、様々なマルチモーダルベンチマークで部分的にオープンなMLLM Qwen2-VL-2Bより優れている。
- 参考スコア(独自算出の注目度): 36.525767435183845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reproduction of state-of-the-art multimodal LLM pre-training faces barriers at every stage of the pipeline, including high-quality data filtering, multimodal data mixture strategies, sequence packing techniques, and training frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs using only 220 A100-40G GPU hours. Our approach employs low-to-high dynamic image resolution and multimodal sequence packing to significantly enhance pre-training efficiency. The training dataset was carefully curated using both MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based filtering methods, substantially improving data quality and training efficiency. The Open-Qwen2VL pre-training is conducted on academic level 8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36% of 1.4T multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista, indicating the remarkable training efficiency of Open-Qwen2VL. We open-source all aspects of our work, including compute-efficient and data-efficient training details, data filtering methods, sequence packing scripts, pre-training data in WebDataset format, FSDP-based training codebase, and both base and instruction-tuned model checkpoints. We redefine "fully open" for multimodal LLMs as the complete release of: 1) the training codebase, 2) detailed data filtering techniques, and 3) all pre-training and supervised fine-tuning data used to develop the model.
- Abstract(参考訳): 最先端のマルチモーダルLLMの事前トレーニングは、高品質なデータフィルタリング、マルチモーダルデータ混合戦略、シーケンスパッキング技術、トレーニングフレームワークなど、パイプラインのすべての段階で障壁に直面している。
220 A100-40GのGPU時間しか使用せず,29Mイメージテキストペア上で効率よく事前訓練された,オープンソースの2Bパラメトリック・マルチモーダル大言語モデルであるOpen-Qwen2VLを紹介する。
提案手法では,事前学習効率を大幅に向上させるために,低-高ダイナミック画像分解能とマルチモーダルシーケンスパッキングを用いる。
トレーニングデータセットはMLLMベースのフィルタリング技術(例えばMLM-Filter)と従来のCLIPベースのフィルタリング手法の両方を用いて慎重にキュレートされ、データ品質とトレーニング効率が大幅に向上した。
The Open-Qwen2VL pre-training is performed on academic level 8xA100-40G GPUs at UCSB on 5B pack multimodal tokens, which is 0.36% of 1.4T multimodal pre-training tokens of Qwen2-VL。
最後の命令調整されたOpen-Qwen2VLは、MMBench、SEEDBench、MMstar、MathVistaの様々なマルチモーダルベンチマークで部分的にオープンなMLLM Qwen2-VL-2Bより優れており、Open-Qwen2VLの優れたトレーニング効率を示している。
私たちは、計算効率とデータ効率のトレーニングの詳細、データフィルタリング方法、シーケンスパッキングスクリプト、WebDatasetフォーマットでの事前トレーニングデータ、FSDPベースのトレーニングコードベース、ベースとインストラクションの両方のモデルチェックポイントを含む、作業のすべての側面をオープンソースにしています。
我々は、マルチモーダル LLM に対して、次の完全なリリースとして「完全にオープン」を再定義する。
1) トレーニングコードベース。
2)詳細なデータフィルタリング技術、及び
3)モデルの開発に使用したすべての事前トレーニングおよび教師付き微調整データ。
関連論文リスト
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。
データ合成、トレーニングパイプライン、タスク評価に重点を置いています。
バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文 参考訳(メタデータ) (2024-11-29T18:42:28Z) - Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。
統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。
タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T09:03:48Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning [40.61149906522525]
Instruct-SkillMixは、多様な高品質なSFTデータを作成するための自動化アプローチである。
LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。
Instruct-SkillMixパイプラインは柔軟性があり、他の設定に適応できる。
論文 参考訳(メタデータ) (2024-08-27T04:31:58Z) - NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
我々はNV-Embedを導入し、アーキテクチャ設計、トレーニング手順、キュレートされたデータセットを取り入れた。
モデルアーキテクチャでは, プール埋め込みを実現するために, 潜時注意層を提案する。
学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:59:45Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。