論文の概要: Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator
- arxiv url: http://arxiv.org/abs/2312.06731v4
- Date: Wed, 24 Apr 2024 07:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 23:17:45.017449
- Title: Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator
- Title(参考訳): Genixer: 強力なデータジェネレータとしてのマルチモーダル大言語モデル
- Authors: Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou,
- Abstract要約: 我々は、高品質なチューニングチューニングデータを生成する革新的なデータ生成パイプラインGenixerを開発した。
生成したデータの有効性を検証するために,人間の評価とユーザの嗜好調査を行った。
代表的なMLLMであるLLaVA1.5とShikraのトレーニングのために,2つの命令チューニングデータセットを生成した。
- 参考スコア(独自算出の注目度): 63.762209407570715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning data is essential for training the Multimodal Large Language Models (MLLMs). However, the creation of high-quality instruction tuning data presents significant challenges. Asking the human to label the instruction tuning data is label-intensive and time-consuming. Some works prompted to GPT-4 for data generation were not only costly but also lacked satisfactory performance in complex tasks (i.e., grounding-based reasoning tasks). To address the challenges of data creation, we are the first to explore the potential of empowering MLLMs with the ability to generate instruction-tuning data by following user instructions. Specifically, we developed an innovative data generation pipeline Genixer to generate various high-quality instruction tuning data, including nine representative tasks, e.g., Common VQA, REC, REG, and PointQ. Genixer provides a unified solution for data generation with four key steps: (i) instruction data collection, (ii) instruction template design, (iii) empowering MLLM, and (iv) data generation and filtering. To validate the effectiveness of generated data, we conducted the human evaluation and user preference study to assess the quality of generated data. Subsequently, we generated two instruction-tuning datasets for the training of two representative MLLMs, LLaVA1.5 and Shikra, and noted consistent improvements across various VQA tasks and multimodal benchmarks. For instance, performance on the VizWiz benchmark improved from 50.0% to 53.8%, and on ScienceQA, it increased from 66.8% to 69.7%, reconfirming the quality of the generated instruction tuning data. The data, code, and models will be released.
- Abstract(参考訳): インストラクションチューニングデータは、MLLM(Multimodal Large Language Models)のトレーニングに不可欠である。
しかし、高品質なチューニングチューニングデータの作成には大きな課題がある。
命令チューニングデータのラベル付けを人間に依頼することは、ラベル集約的で時間を要する。
データ生成のためにGPT-4に誘導されたいくつかの作業は、コストがかかるだけでなく、複雑なタスク(グラウンドベース推論タスク)で満足なパフォーマンスが欠如していた。
データ作成の課題に対処するため,ユーザ命令に従うことで命令調整データを生成する能力を備えたMLLMの強化の可能性について,まず検討する。
具体的には,9つの代表的なタスク,例えば,共通VQA,REC,REG,PointQを含む,高品質な命令チューニングデータを生成する革新的なデータ生成パイプラインGenixerを開発した。
Genixerは4つの重要なステップでデータ生成に統一されたソリューションを提供する。
(i)命令データ収集
(ii) 命令テンプレートの設計
三 MLLMの強化、及び
(iv)データ生成とフィルタリング。
生成データの有効性を検証するため,人体評価とユーザ嗜好調査を行い,生成データの品質評価を行った。
その後、LLaVA1.5とShikraという2つの代表MLLMのトレーニングのための2つの命令チューニングデータセットを生成し、様々なVQAタスクとマルチモーダルベンチマークで一貫した改善を行った。
例えば、VizWizベンチマークのパフォーマンスは50.0%から53.8%に向上し、ScienceQAでは66.8%から69.7%に向上した。
データ、コード、モデルがリリースされる。
関連論文リスト
- INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning [28.667060630303183]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with
Refined Data Generation [23.41247482299201]
4つの普遍的なコード関連タスクにまたがる2万の命令インスタンスからなるデータセットであるCodeOceanを紹介する。
次に、WidespreadとVersatile拡張命令チューニングを備えた微調整コードLLMであるWavecoderを紹介する。
論文 参考訳(メタデータ) (2023-12-20T09:02:29Z) - VIGC: Visual Instruction Generation and Correction [47.477290387002284]
視覚言語タスクのための高品質なインストラクションチューニングデータの不足は依然として課題である。
LLaVAのような現在の主要なパラダイムは、データを生成するために言語のみのGPT-4に依存している。
本稿では,マルチモーダルな大規模言語モデルによる命令調整データの生成を可能にするビジュアルインストラクション生成と補正フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T11:21:05Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。