論文の概要: MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
- arxiv url: http://arxiv.org/abs/2409.05840v1
- Date: Mon, 9 Sep 2024 17:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:36:22.905782
- Title: MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
- Title(参考訳): MMEvol: Evol-Instructによるマルチモーダル大言語モデルの強化
- Authors: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li,
- Abstract要約: 我々は、画像テキストの命令データをキュレートするための新しいフレームワークであるMMEvolを提案する。
MMEvolは、微粒な知覚の進化、認知的推論の進化、相互作用の進化を組み合わせている。
提案手法は,3.1ポイントの平均精度向上を実現し,13の視覚言語タスクのうち9つで最先端(SOTA)性能に達する。
- 参考スコア(独自算出の注目度): 148.39859547619156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Multimodal Large Language Models (MLLMs) has seen significant advancements. However, the quantity and quality of multimodal instruction data have emerged as significant bottlenecks in their progress. Manually creating multimodal instruction data is both time-consuming and inefficient, posing challenges in producing instructions of high complexity. Moreover, distilling instruction data from black-box commercial models (e.g., GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains performance to that of these models. The challenge of curating diverse and complex instruction data remains substantial. We propose MMEvol, a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution. This iterative approach breaks through data quality bottlenecks to generate a complex and diverse image-text instruction dataset, thereby empowering MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broadens the diversity of instruction types, integrates reasoning steps to enhance cognitive capabilities, and extracts detailed information from images to improve visual understanding and robustness. To comprehensively evaluate the effectiveness of our data, we train LLaVA-NeXT using the evolved data and conduct experiments across 13 vision-language tasks. Compared to the baseline trained with seed data, our approach achieves an average accuracy improvement of 3.1 points and reaches state-of-the-art (SOTA) performance on 9 of these tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の開発は大きな進歩を遂げている。
しかし、マルチモーダル命令データの量と品質は、その進行に重大なボトルネックとして現れている。
手動でマルチモーダルな命令データを作成することは、時間を要することと非効率的なことの両方であり、高い複雑さの命令を生成する上での課題を提起する。
さらに、ブラックボックスの商用モデル(例えば、GPT-4o、GPT-4V)からの命令データを蒸留すると、単純な命令データが得られ、それらのモデルのパフォーマンスが制限される。
多様な複雑な命令データをキュレートするという課題は、いまだに深刻である。
MMEvolは、微粒な知覚の進化、認知的推論の進化、相互作用の進化を組み合わせた、新しいマルチモーダル・インストラクション・データ進化フレームワークである。
この反復的なアプローチは、データ品質のボトルネックを突破し、複雑で多様な画像テキスト命令データセットを生成する。
初期の命令セットSEED-163Kから、MMEvolを用いて、命令型の多様性を体系的に拡張し、推論ステップを統合して認知能力を高め、画像から詳細な情報を抽出し、視覚的理解と堅牢性を向上させる。
我々のデータの有効性を総合的に評価するために、進化したデータを用いてLLaVA-NeXTを訓練し、13の視覚言語タスクで実験を行う。
シードデータを用いてトレーニングしたベースラインと比較して,本手法は平均3.1ポイントの精度向上を実現し,9つのタスクでSOTA(State-of-the-art)性能に達する。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - From Efficient Multimodal Models to World Models: A Survey [28.780451336834876]
マルチモーダル大規模モデル(MLM)は、強力な言語モデルとマルチモーダル学習を組み合わせた重要な研究対象となっている。
このレビューでは、人工知能の実現におけるその可能性を強調し、大規模指導における最新の発展と課題について考察する。
論文 参考訳(メタデータ) (2024-06-27T15:36:43Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。