論文の概要: Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources
- arxiv url: http://arxiv.org/abs/2504.00595v2
- Date: Wed, 02 Apr 2025 11:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:57.379944
- Title: Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources
- Title(参考訳): Open-Qwen2VL: 学術資源を用いた完全オープンマルチモーダルLCMの計算効率向上
- Authors: Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan,
- Abstract要約: 我々は,29M画像テキストペア上で効率よく事前学習された完全オープンソース2BパラメータであるOpen-Qwen2VLを紹介する。
トレーニングは、Qwen2-VLの1.4Tマルチモーダル事前学習トークンの0.36%である5B充填マルチモーダルトークンにおいて、学術レベル8xA100-40Gで実施された。
最後の命令調整されたOpen-Qwen2VLは、様々なマルチモーダルベンチマークで部分的にオープンなMLLM Qwen2-VL-2Bより優れている。
- 参考スコア(独自算出の注目度): 36.525767435183845
- License:
- Abstract: The reproduction of state-of-the-art multimodal LLM pre-training faces barriers at every stage of the pipeline, including high-quality data filtering, multimodal data mixture strategies, sequence packing techniques, and training frameworks. We introduce Open-Qwen2VL, a fully open-source 2B-parameter Multimodal Large Language Model pre-trained efficiently on 29M image-text pairs using only 220 A100-40G GPU hours. Our approach employs low-to-high dynamic image resolution and multimodal sequence packing to significantly enhance pre-training efficiency. The training dataset was carefully curated using both MLLM-based filtering techniques (e.g., MLM-Filter) and conventional CLIP-based filtering methods, substantially improving data quality and training efficiency. The Open-Qwen2VL pre-training is conducted on academic level 8xA100-40G GPUs at UCSB on 5B packed multimodal tokens, which is 0.36% of 1.4T multimodal pre-training tokens of Qwen2-VL. The final instruction-tuned Open-Qwen2VL outperforms partially-open state-of-the-art MLLM Qwen2-VL-2B on various multimodal benchmarks of MMBench, SEEDBench, MMstar, and MathVista, indicating the remarkable training efficiency of Open-Qwen2VL. We open-source all aspects of our work, including compute-efficient and data-efficient training details, data filtering methods, sequence packing scripts, pre-training data in WebDataset format, FSDP-based training codebase, and both base and instruction-tuned model checkpoints. We redefine "fully open" for multimodal LLMs as the complete release of: 1) the training codebase, 2) detailed data filtering techniques, and 3) all pre-training and supervised fine-tuning data used to develop the model.
- Abstract(参考訳): 最先端のマルチモーダルLLMの事前トレーニングは、高品質なデータフィルタリング、マルチモーダルデータ混合戦略、シーケンスパッキング技術、トレーニングフレームワークなど、パイプラインのすべての段階で障壁に直面している。
220 A100-40GのGPU時間しか使用せず,29Mイメージテキストペア上で効率よく事前訓練された,オープンソースの2Bパラメトリック・マルチモーダル大言語モデルであるOpen-Qwen2VLを紹介する。
提案手法では,事前学習効率を大幅に向上させるために,低-高ダイナミック画像分解能とマルチモーダルシーケンスパッキングを用いる。
トレーニングデータセットはMLLMベースのフィルタリング技術(例えばMLM-Filter)と従来のCLIPベースのフィルタリング手法の両方を用いて慎重にキュレートされ、データ品質とトレーニング効率が大幅に向上した。
The Open-Qwen2VL pre-training is performed on academic level 8xA100-40G GPUs at UCSB on 5B pack multimodal tokens, which is 0.36% of 1.4T multimodal pre-training tokens of Qwen2-VL。
最後の命令調整されたOpen-Qwen2VLは、MMBench、SEEDBench、MMstar、MathVistaの様々なマルチモーダルベンチマークで部分的にオープンなMLLM Qwen2-VL-2Bより優れており、Open-Qwen2VLの優れたトレーニング効率を示している。
私たちは、計算効率とデータ効率のトレーニングの詳細、データフィルタリング方法、シーケンスパッキングスクリプト、WebDatasetフォーマットでの事前トレーニングデータ、FSDPベースのトレーニングコードベース、ベースとインストラクションの両方のモデルチェックポイントを含む、作業のすべての側面をオープンソースにしています。
我々は、マルチモーダル LLM に対して、次の完全なリリースとして「完全にオープン」を再定義する。
1) トレーニングコードベース。
2)詳細なデータフィルタリング技術、及び
3)モデルの開発に使用したすべての事前トレーニングおよび教師付き微調整データ。
関連論文リスト
- Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。
統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。
タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T09:03:48Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning [40.61149906522525]
Instruct-SkillMixは、多様な高品質なSFTデータを作成するための自動化アプローチである。
LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。
Instruct-SkillMixパイプラインは柔軟性があり、他の設定に適応できる。
論文 参考訳(メタデータ) (2024-08-27T04:31:58Z) - FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation [32.01836613286288]
この研究は、完全なビナライズされた大規模言語モデル(FBI-LLM)を提示する。
大規模なバイナリ言語モデルをスクラッチからトレーニングする方法を初めて示すものだ。
論文 参考訳(メタデータ) (2024-07-09T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。