論文の概要: Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
- arxiv url: http://arxiv.org/abs/2410.18558v2
- Date: Mon, 06 Jan 2025 12:48:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:03:39.873356
- Title: Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
- Title(参考訳): Infinity-MM:大規模かつ高品質なインストラクションデータによるマルチモーダルパフォーマンスのスケーリング
- Authors: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Songjing Wang, Yulong Ao, Yiming Ju, Huanhuan Ma, Xiaotong Li, Haiwen Diao, Yufeng Cui, Xinlong Wang, Yaoqi Liu, Fangxiang Feng, Guang Liu,
- Abstract要約: 大規模マルチモーダル命令データセットであるInfinity-MMを導入する。
統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。
タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
- 参考スコア(独自算出の注目度): 35.85909368345219
- License:
- Abstract: Recently, Vision-Language Models (VLMs) have achieved remarkable progress in multimodal tasks, and multimodal instruction data serves as the foundation for enhancing VLM capabilities. Despite the availability of several open-source multimodal datasets, limitations in the scale and quality of open-source instruction data hinder the performance of VLMs trained on these datasets, leading to a significant gap compared to models trained on closed-source data. To address this challenge, we introduce Infinity-MM, a large-scale multimodal instruction dataset. We collected the available multimodal instruction datasets and performed unified preprocessing, resulting in a dataset with over 40 million samples that ensures diversity and accuracy. Furthermore, to enable large-scale expansion of instruction data and support the continuous acquisition of high-quality data, we propose a synthetic instruction generation method based on a tagging system and open-source VLMs. By establishing correspondences between different types of images and associated instruction types, this method can provide essential guidance during data synthesis. Leveraging this high-quality data, we have trained a 2-billion-parameter Vision-Language Model, Aquila-VL-2B, which achieves state-of-the-art (SOTA) performance among models of similar scale. The data is available at: https://huggingface.co/datasets/BAAI/Infinity-MM.
- Abstract(参考訳): 近年,VLM(Vision-Language Models)はマルチモーダルタスクにおいて顕著な進歩を遂げており,マルチモーダル命令データがVLM機能向上の基盤となっている。
いくつかのオープンソースのマルチモーダルデータセットが利用可能であるにも関わらず、オープンソースの命令データのスケールと品質の制限により、これらのデータセットでトレーニングされたVLMのパフォーマンスが妨げられ、クローズドソースデータでトレーニングされたモデルと比較して大きなギャップが生じる。
この課題に対処するために,大規模なマルチモーダル命令データセットであるInfinity-MMを導入する。
利用可能なマルチモーダル命令データセットを収集し、統一された前処理を行い、その結果、多様性と正確性を保証する4000万以上のサンプルからなるデータセットが得られた。
さらに,命令データの大規模拡張と高品質データの継続的な取得を支援するため,タグ付けシステムとオープンソースのVLMに基づく合成命令生成手法を提案する。
異なる種類の画像と関連する命令の対応性を確立することにより,データ合成において重要なガイダンスを提供することができる。
この高品質なデータを活用することで、同様のスケールのモデル間でSOTA(State-of-the-art)性能を実現する2ビリオンパラメトリックビジョンランゲージモデルであるAquila-VL-2Bを訓練した。
データは以下の通り。 https://huggingface.co/datasets/BAAI/Infinity-MM。
関連論文リスト
- Scalable Vision Language Model Training via High Quality Data Curation [10.121967684111445]
本稿では,2Bパラメータと8BパラメータでSOTA(State-of-the-art)性能を実現するための,オープンソースのビジョン言語モデル(VLM)シリーズを紹介する。
以下の3つの重要な改善は、SAILVLの主要なパフォーマンスに貢献している。
論文 参考訳(メタデータ) (2025-01-10T13:27:04Z) - MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval [32.593177371090306]
MegaPairsは視覚言語モデル(VLM)とオープンドメイン画像を利用する新しいデータ合成手法である。
実験により,MegaPairsは高品質なデータを生成し,マルチモーダルレトリバーがベースラインモデルを大幅に上回ることを示す。
このデータを使って、600万以上のトレーニングインスタンスを生成し、さまざまなサイズのモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-12-19T02:49:55Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。