論文の概要: Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator
- arxiv url: http://arxiv.org/abs/2312.06731v3
- Date: Wed, 20 Mar 2024 07:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 13:46:32.824240
- Title: Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator
- Title(参考訳): Genixer: 強力なデータジェネレータとしてのマルチモーダル大言語モデル
- Authors: Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou,
- Abstract要約: 我々は、高品質な命令チューニングデータを生成する革新的なデータ生成パイプライン、Genixerを開発した。
具体的には、Genixerはデータ生成の難しさを軽減するための4つの重要なステップを備えた統一されたソリューションを提供する。
Genixerの優れた定性的な結果は、現在のMLLMが強力なデータジェネレータに進化する強力な可能性を持っていることを示している。
- 参考スコア(独自算出の注目度): 63.762209407570715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning data is essential for training the Multimodal Large Language Models (MLLMs). However, the creation of high-quality instruction tuning data presents significant challenges. Prior methods that depended on GPT-4 for data generation were not only costly but also lacked satisfactory performance in complex tasks (i.e., grounding-based reasoning tasks). To address these issues, we developed an innovative data generation pipeline, Genixer, to generate various high-quality instruction tuning data, including nine representative tasks, e.g., Common VQA, REC, REG, and PointQ. Specifically, Genixer provides a unified solution with four key steps for alleviating the difficulty of data generation: (i) instruction data collection, (ii) instruction template design, (iii) empowering MLLM, and (iv) data generation and filtering. Subsequently, the superior qualitative results of our Genixer demonstrate that current MLLMs have a strong potential to evolve into powerful data generators. Additionally, to validate the efficacy of generated data quantitatively, we add the instruction tuning data produced by Genixer into the training of two representative MLLMs and observe the consistent improvements on various VQA tasks and multimodal benchmarks.
- Abstract(参考訳): インストラクションチューニングデータは、MLLM(Multimodal Large Language Models)のトレーニングに不可欠である。
しかし、高品質なチューニングチューニングデータの作成には大きな課題がある。
データ生成のための GPT-4 に依存する以前の手法はコストがかかるだけでなく、複雑なタスク(グラウンドベース推論タスク)において満足な性能が欠如していた。
これらの課題に対処するため、我々は、9つの代表タスク、例えば、Common VQA、REC、REG、PointQを含む、様々な高品質な命令チューニングデータを生成する革新的なデータ生成パイプラインGenixerを開発した。
具体的には、Genixerは4つの重要なステップで統一されたソリューションを提供し、データ生成の難しさを軽減する。
(i)命令データ収集
(ii) 命令テンプレートの設計
三 MLLMの強化、及び
(iv)データ生成とフィルタリング。
続いて、我々のGenixerの優れた定性的結果から、現在のMLLMは強力なデータジェネレータに進化する可能性が強いことが示される。
さらに、生成したデータの有効性を定量的に検証するために、2つの代表MLLMのトレーニングにGenixerが生成した命令チューニングデータを追加し、様々なVQAタスクとマルチモーダルベンチマークにおける一貫した改善を観察する。
関連論文リスト
- Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [21.905041803331113]
VLM(Vision-Language Models)は近年大きな進歩を遂げているが、オープンソースの命令データの規模や品質に制限があるため、その性能は損なわれている。
Infinity-MMは4000万のサンプルを持つ大規模マルチモーダル・インストラクション・データセットであり、厳密な品質のフィルタリングと重複によって強化されている。
また,詳細な画像アノテーションと多様な質問生成を用いた,オープンソースのVLMに基づく合成命令生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T09:03:48Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。