論文の概要: Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
- arxiv url: http://arxiv.org/abs/2410.18558v1
- Date: Thu, 24 Oct 2024 09:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:02.650657
- Title: Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
- Title(参考訳): Infinity-MM:大規模かつ高品質なインストラクションデータによるマルチモーダルパフォーマンスのスケーリング
- Authors: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu,
- Abstract要約: VLM(Vision-Language Models)は近年大きな進歩を遂げているが、オープンソースの命令データの規模や品質に制限があるため、その性能は損なわれている。
Infinity-MMは4000万のサンプルを持つ大規模マルチモーダル・インストラクション・データセットであり、厳密な品質のフィルタリングと重複によって強化されている。
また,詳細な画像アノテーションと多様な質問生成を用いた,オープンソースのVLMに基づく合成命令生成手法を提案する。
- 参考スコア(独自算出の注目度): 21.905041803331113
- License:
- Abstract: Vision-Language Models (VLMs) have recently made significant progress, but the limited scale and quality of open-source instruction data hinder their performance compared to closed-source models. In this work, we address this limitation by introducing Infinity-MM, a large-scale multimodal instruction dataset with 40 million samples, enhanced through rigorous quality filtering and deduplication. We also propose a synthetic instruction generation method based on open-source VLMs, using detailed image annotations and diverse question generation. Using this data, we trained a 2-billion-parameter VLM, Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of similar scale. This demonstrates that expanding instruction data and generating synthetic data can significantly improve the performance of open-source models.
- Abstract(参考訳): VLM(Vision-Language Models)は近年大きな進歩を遂げているが、オープンソース命令データの規模や品質に制限があるため、クローズドソースモデルと比較して性能が低下している。
本研究では,4000万サンプルからなる大規模マルチモーダル・インストラクション・データセットであるInfinity-MMを導入し,厳密な品質フィルタリングと重複処理により拡張した。
また,詳細な画像アノテーションと多様な質問生成を用いた,オープンソースのVLMに基づく合成命令生成手法を提案する。
このデータを用いて、2ビリオンパラメータのVLMであるAquila-VL-2Bを訓練し、同様のスケールのモデルに対してSOTA(State-of-the-art)性能を実現した。
これにより、命令データの拡大と合成データの生成により、オープンソースモデルの性能が大幅に向上することを示す。
関連論文リスト
- Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Harnessing the Power of David against Goliath: Exploring Instruction
Data Generation without Using Closed-Source Models [32.41573520305861]
クローズドソースモデルに依存しない高品質な命令データを生成するための代替手法を検討する。
2つのベンチマークとGPT-4モデルによる評価結果から,生成した命令データの有効性が示された。
論文 参考訳(メタデータ) (2023-08-24T11:07:47Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。