論文の概要: Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
- arxiv url: http://arxiv.org/abs/2410.18558v1
- Date: Thu, 24 Oct 2024 09:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:02.650657
- Title: Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
- Title(参考訳): Infinity-MM:大規模かつ高品質なインストラクションデータによるマルチモーダルパフォーマンスのスケーリング
- Authors: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu,
- Abstract要約: VLM(Vision-Language Models)は近年大きな進歩を遂げているが、オープンソースの命令データの規模や品質に制限があるため、その性能は損なわれている。
Infinity-MMは4000万のサンプルを持つ大規模マルチモーダル・インストラクション・データセットであり、厳密な品質のフィルタリングと重複によって強化されている。
また,詳細な画像アノテーションと多様な質問生成を用いた,オープンソースのVLMに基づく合成命令生成手法を提案する。
- 参考スコア(独自算出の注目度): 21.905041803331113
- License:
- Abstract: Vision-Language Models (VLMs) have recently made significant progress, but the limited scale and quality of open-source instruction data hinder their performance compared to closed-source models. In this work, we address this limitation by introducing Infinity-MM, a large-scale multimodal instruction dataset with 40 million samples, enhanced through rigorous quality filtering and deduplication. We also propose a synthetic instruction generation method based on open-source VLMs, using detailed image annotations and diverse question generation. Using this data, we trained a 2-billion-parameter VLM, Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of similar scale. This demonstrates that expanding instruction data and generating synthetic data can significantly improve the performance of open-source models.
- Abstract(参考訳): VLM(Vision-Language Models)は近年大きな進歩を遂げているが、オープンソース命令データの規模や品質に制限があるため、クローズドソースモデルと比較して性能が低下している。
本研究では,4000万サンプルからなる大規模マルチモーダル・インストラクション・データセットであるInfinity-MMを導入し,厳密な品質フィルタリングと重複処理により拡張した。
また,詳細な画像アノテーションと多様な質問生成を用いた,オープンソースのVLMに基づく合成命令生成手法を提案する。
このデータを用いて、2ビリオンパラメータのVLMであるAquila-VL-2Bを訓練し、同様のスケールのモデルに対してSOTA(State-of-the-art)性能を実現した。
これにより、命令データの拡大と合成データの生成により、オープンソースモデルの性能が大幅に向上することを示す。
関連論文リスト
- Scalable Vision Language Model Training via High Quality Data Curation [10.121967684111445]
本稿では,2Bパラメータと8BパラメータでSOTA(State-of-the-art)性能を実現するための,オープンソースのビジョン言語モデル(VLM)シリーズを紹介する。
以下の3つの重要な改善は、SAILVLの主要なパフォーマンスに貢献している。
論文 参考訳(メタデータ) (2025-01-10T13:27:04Z) - MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval [32.593177371090306]
MegaPairsは視覚言語モデル(VLM)とオープンドメイン画像を利用する新しいデータ合成手法である。
実験により,MegaPairsは高品質なデータを生成し,マルチモーダルレトリバーがベースラインモデルを大幅に上回ることを示す。
このデータを使って、600万以上のトレーニングインスタンスを生成し、さまざまなサイズのモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-12-19T02:49:55Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。