論文の概要: MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
- arxiv url: http://arxiv.org/abs/2409.05840v1
- Date: Mon, 9 Sep 2024 17:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:36:22.905782
- Title: MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
- Title(参考訳): MMEvol: Evol-Instructによるマルチモーダル大言語モデルの強化
- Authors: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li,
- Abstract要約: 我々は、画像テキストの命令データをキュレートするための新しいフレームワークであるMMEvolを提案する。
MMEvolは、微粒な知覚の進化、認知的推論の進化、相互作用の進化を組み合わせている。
提案手法は,3.1ポイントの平均精度向上を実現し,13の視覚言語タスクのうち9つで最先端(SOTA)性能に達する。
- 参考スコア(独自算出の注目度): 148.39859547619156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Multimodal Large Language Models (MLLMs) has seen significant advancements. However, the quantity and quality of multimodal instruction data have emerged as significant bottlenecks in their progress. Manually creating multimodal instruction data is both time-consuming and inefficient, posing challenges in producing instructions of high complexity. Moreover, distilling instruction data from black-box commercial models (e.g., GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains performance to that of these models. The challenge of curating diverse and complex instruction data remains substantial. We propose MMEvol, a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution. This iterative approach breaks through data quality bottlenecks to generate a complex and diverse image-text instruction dataset, thereby empowering MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broadens the diversity of instruction types, integrates reasoning steps to enhance cognitive capabilities, and extracts detailed information from images to improve visual understanding and robustness. To comprehensively evaluate the effectiveness of our data, we train LLaVA-NeXT using the evolved data and conduct experiments across 13 vision-language tasks. Compared to the baseline trained with seed data, our approach achieves an average accuracy improvement of 3.1 points and reaches state-of-the-art (SOTA) performance on 9 of these tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の開発は大きな進歩を遂げている。
しかし、マルチモーダル命令データの量と品質は、その進行に重大なボトルネックとして現れている。
手動でマルチモーダルな命令データを作成することは、時間を要することと非効率的なことの両方であり、高い複雑さの命令を生成する上での課題を提起する。
さらに、ブラックボックスの商用モデル(例えば、GPT-4o、GPT-4V)からの命令データを蒸留すると、単純な命令データが得られ、それらのモデルのパフォーマンスが制限される。
多様な複雑な命令データをキュレートするという課題は、いまだに深刻である。
MMEvolは、微粒な知覚の進化、認知的推論の進化、相互作用の進化を組み合わせた、新しいマルチモーダル・インストラクション・データ進化フレームワークである。
この反復的なアプローチは、データ品質のボトルネックを突破し、複雑で多様な画像テキスト命令データセットを生成する。
初期の命令セットSEED-163Kから、MMEvolを用いて、命令型の多様性を体系的に拡張し、推論ステップを統合して認知能力を高め、画像から詳細な情報を抽出し、視覚的理解と堅牢性を向上させる。
我々のデータの有効性を総合的に評価するために、進化したデータを用いてLLaVA-NeXTを訓練し、13の視覚言語タスクで実験を行う。
シードデータを用いてトレーニングしたベースラインと比較して,本手法は平均3.1ポイントの精度向上を実現し,9つのタスクでSOTA(State-of-the-art)性能に達する。
関連論文リスト
- PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents [58.35492519636351]
PINフォーマットは、知識の強度、スケーラビリティ、多様なトレーニングモダリティのサポートの3つの基本原則に基づいて構築されている。
PIN-14Mは中国語と英語の多種多様な情報源から得られた1400万のサンプルからなるオープンソースデータセットである。
論文 参考訳(メタデータ) (2024-06-20T01:43:08Z) - Mosaic IT: Enhancing Instruction Tuning with Data Mosaics [30.82220015525281]
大規模な言語モデルを微調整するための人間/モデルなしの手法であるMosaic Instruction Tuning(Mosaic-IT)を紹介する。
Mosaic-ITはランダムに複数の命令データを1つにまとめ、対応する応答を生成するようモデルを訓練する。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - What Matters in Training a GPT4-Style Language Model with Multimodal
Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。
これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。
本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文 参考訳(メタデータ) (2023-07-05T17:44:28Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction
Tuning [24.741736629886564]
インストラクションチューニングは、命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムである。
MUL-TIINSTRUCTは,最初のマルチモーダル・インストラクション・チューニング・ベンチマーク・データセットである。
各種マルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの変換学習の利点を示す。
論文 参考訳(メタデータ) (2022-12-21T05:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。