論文の概要: MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
- arxiv url: http://arxiv.org/abs/2409.05840v2
- Date: Sun, 15 Sep 2024 13:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:28:35.696023
- Title: MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
- Title(参考訳): MMEvol: Evol-Instructによるマルチモーダル大言語モデルの強化
- Authors: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li,
- Abstract要約: 我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
- 参考スコア(独自算出の注目度): 148.39859547619156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Multimodal Large Language Models (MLLMs) has seen significant advancements with increasing demands in various fields (e.g., multimodal agents, embodied intelligence). While model-driven approaches attempt to enhance MLLMs capabilities through diverse architectures, the gains have become increasingly marginal. Conversely, data-driven methods, which scale up image-text instruction data, are more effective but face limited data diversity and complexity challenges. The absence of high-quality data constitutes a significant development barrier for MLLMs. To address the data quality bottleneck, we propose MMEvol, a novel multimodal instruction data evolution framework. This framework iteratively improve data quality through a refined combination of fine-grained perception, cognitive reasoning, and interaction evolution, generating a more complex and diverse image-text instruction dataset that empowers MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broaden the diversity of instruction types, extend visual reasoning steps to improve cognitive reasoning abilities, and thoroughly explore fine-grained information within images to enhance visual understanding and robustness. To comprehensively evaluate the effectiveness of our approach, we conduct extensive qualitative analysis and quantitative experiments across 13 vision-language tasks. Compared to baseline models trained with the initial seed data, the results demonstrate that our method achieves an average accuracy improvement of 3.1 percentage points. Furthermore, our approach reaches state-of-the-art (SOTA) performance in nine tasks using significantly less data compared to state-of-the-art models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の開発は、様々な分野(例えば、マルチモーダルエージェント、インボディードインテリジェンス)の需要の増加とともに、大きな進歩を遂げている。
モデル駆動アプローチは多様なアーキテクチャを通じてMLLMの能力を向上しようとするが、その利益はますます限界に達している。
逆に、画像テキストの命令データをスケールアップするデータ駆動手法は、より効果的であるが、データ多様性と複雑さの制限に直面している。
高品質なデータがないことは、MLLMにとって重要な開発障壁となっている。
データ品質のボトルネックに対処するため,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
このフレームワークは、微粒な知覚、認知的推論、相互作用の進化を巧みに組み合わせることで、データ品質を反復的に改善し、より複雑で多様な画像テキスト命令データセットを生成し、機能強化によるMLLMの強化を可能にします。
初期の命令セットSEED-163Kから、MMEvolを用いて、命令型の多様性を体系的に拡張し、認知的推論能力を向上させるために視覚的推論手順を拡張し、画像内のきめ細かい情報を徹底的に探索し、視覚的理解と堅牢性を高める。
提案手法の有効性を総合的に評価するため,13の視覚言語タスクに対して,広範囲な質的分析と定量的実験を行った。
初期シードデータを用いたベースラインモデルと比較して,本手法は平均精度を3.1ポイント向上することを示した。
さらに,本手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
関連論文リスト
- PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents [58.35492519636351]
PINフォーマットは、知識の強度、スケーラビリティ、多様なトレーニングモダリティのサポートの3つの基本原則に基づいて構築されている。
PIN-14Mは中国語と英語の多種多様な情報源から得られた1400万のサンプルからなるオープンソースデータセットである。
論文 参考訳(メタデータ) (2024-06-20T01:43:08Z) - Mosaic IT: Enhancing Instruction Tuning with Data Mosaics [30.82220015525281]
大規模な言語モデルを微調整するための人間/モデルなしの手法であるMosaic Instruction Tuning(Mosaic-IT)を紹介する。
Mosaic-ITはランダムに複数の命令データを1つにまとめ、対応する応答を生成するようモデルを訓練する。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - What Matters in Training a GPT4-Style Language Model with Multimodal
Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。
これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。
本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文 参考訳(メタデータ) (2023-07-05T17:44:28Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction
Tuning [24.741736629886564]
インストラクションチューニングは、命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムである。
MUL-TIINSTRUCTは,最初のマルチモーダル・インストラクション・チューニング・ベンチマーク・データセットである。
各種マルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの変換学習の利点を示す。
論文 参考訳(メタデータ) (2022-12-21T05:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。