論文の概要: Genixer: Empowering Multimodal Large Language Models as a Powerful Data
Generator
- arxiv url: http://arxiv.org/abs/2312.06731v1
- Date: Mon, 11 Dec 2023 09:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:35:44.507653
- Title: Genixer: Empowering Multimodal Large Language Models as a Powerful Data
Generator
- Title(参考訳): Genixer: 強力なデータジェネレータとしてのマルチモーダル大言語モデル
- Authors: Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou
- Abstract要約: Genixerは、高品質なマルチモーダルチューニングチューニングデータを生成する革新的なデータ生成パイプラインである。
10の一般的なマルチモーダルタスクのデータセットをインストラクションチューニングデータに変換する。
その後、訓練済みのMLLMを訓練し、タスク固有の命令データを生成する。
実験により、Genixerのフィルタリングされたデータは画像キャプションやVQAタスクのカカポを継続的に改善することが示された。
- 参考スコア(独自算出の注目度): 71.66233345255701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel in understanding human instructions,
driving the development of Multimodal LLMs (MLLMs) with instruction tuning.
However, acquiring high-quality multimodal instruction tuning data poses a
significant challenge. Previous approaches relying on GPT-4 for data generation
proved expensive and exhibited unsatisfactory performance for certain tasks. To
solve this, we present Genixer, an innovative data generation pipeline
producing high-quality multimodal instruction tuning data for various tasks.
Genixer collects datasets for ten prevalent multimodal tasks and designs
instruction templates to transform these datasets into instruction-tuning data.
It then trains pretrained MLLMs to generate task-specific instruction data and
proposes an effective data filtering strategy to ensure high quality. To
evaluate Genixer, a base MLLM model, Kakapo, is built and achieves SoTA
performance in image captioning and visual question answering (VQA) tasks
across multiple datasets. Experimental results show that filtered data from
Genixer continually improves Kakapo for image captioning and VQA tasks. For the
SoTA Shikra MLLM model on the image-region-related tasks, e.g., region caption
and detection, Genixer also successfully generates corresponding data and
improves its performance. Genixer opens avenues for generating high-quality
multimodal instruction data for diverse tasks, enabling innovative applications
across domains. The code and models will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)は人間の指示を理解する上で優れており、命令チューニングを備えたマルチモーダルLLM(MLLM)の開発を推進している。
しかし、高品質なマルチモーダル命令チューニングデータを取得することは大きな課題となる。
データ生成にGPT-4を頼っていた従来のアプローチは高価であり、特定のタスクに不満足な性能を示した。
そこで我々は,様々なタスクに対して高品質なマルチモーダル命令チューニングデータを生成する革新的なデータ生成パイプラインGenixerを提案する。
genixerは10の一般的なマルチモーダルタスク用のデータセットを収集し、これらのデータセットを命令チューニングデータに変換するための命令テンプレートを設計する。
その後、事前訓練されたMLLMを訓練してタスク固有の命令データを生成し、高品質なデータフィルタリング戦略を提案する。
Genixerを評価するために、基本的なMLLMモデルであるKakapoが構築され、複数のデータセットにわたる画像キャプションと視覚的質問応答(VQA)タスクにおいて、SoTAのパフォーマンスを達成する。
実験結果から,Genixerのフィルタリングデータにより,画像キャプションやVQAタスクのカカポが継続的に改善されていることがわかった。
画像領域関連タスク(例えば、地域キャプションや検出)におけるSoTAシクラMLLMモデルでは、Genixerは対応するデータの生成にも成功し、その性能を向上させる。
Genixerは、さまざまなタスクのための高品質なマルチモーダル命令データを生成するための道を開いた。
コードとモデルはまもなくリリースされる予定だ。
関連論文リスト
- INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning [28.667060630303183]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with
Refined Data Generation [23.41247482299201]
4つの普遍的なコード関連タスクにまたがる2万の命令インスタンスからなるデータセットであるCodeOceanを紹介する。
次に、WidespreadとVersatile拡張命令チューニングを備えた微調整コードLLMであるWavecoderを紹介する。
論文 参考訳(メタデータ) (2023-12-20T09:02:29Z) - VIGC: Visual Instruction Generation and Correction [47.477290387002284]
視覚言語タスクのための高品質なインストラクションチューニングデータの不足は依然として課題である。
LLaVAのような現在の主要なパラダイムは、データを生成するために言語のみのGPT-4に依存している。
本稿では,マルチモーダルな大規模言語モデルによる命令調整データの生成を可能にするビジュアルインストラクション生成と補正フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T11:21:05Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。