論文の概要: Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator
- arxiv url: http://arxiv.org/abs/2312.06731v2
- Date: Tue, 19 Mar 2024 09:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 23:51:29.439695
- Title: Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator
- Title(参考訳): Genixer: 強力なデータジェネレータとしてのマルチモーダル大言語モデル
- Authors: Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou,
- Abstract要約: 我々は、高品質な命令チューニングデータを生成する革新的なデータ生成パイプライン、Genixerを開発した。
具体的には、Genixerはデータ生成の難しさを軽減するための4つの重要なステップを備えた統一されたソリューションを提供する。
Genixerの優れた定性的な結果は、現在のMLLMが強力なデータジェネレータに進化する強力な可能性を持っていることを示している。
- 参考スコア(独自算出の注目度): 63.762209407570715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning data is essential for training the Multimodal Large Language Models (MLLMs). However, the creation of high-quality instruction tuning data presents significant challenges. Prior methods that depended on GPT-4 for data generation were not only costly but also lacked satisfactory performance in complex tasks (i.e., grounding-based reasoning tasks). To address these issues, we developed an innovative data generation pipeline, Genixer, to generate various high-quality instruction tuning data, including nine representative tasks, e.g., Common VQA, REC, REG, and PointQ. Specifically, Genixer provides a unified solution with four key steps for alleviating the difficulty of data generation: (i) instruction data collection, (ii) instruction template design, (iii) empowering MLLM, and (iv) data generation and filtering. Subsequently, the superior qualitative results of our Genixer demonstrate that current MLLMs have a strong potential to evolve into powerful data generators. Additionally, to validate the efficacy of generated data quantitatively, we add the instruction tuning data produced by Genixer into the training of two representative MLLMs and observe the consistent improvements on various VQA tasks and multimodal benchmarks.
- Abstract(参考訳): インストラクションチューニングデータは、MLLM(Multimodal Large Language Models)のトレーニングに不可欠である。
しかし、高品質なチューニングチューニングデータの作成には大きな課題がある。
データ生成のための GPT-4 に依存する以前の手法はコストがかかるだけでなく、複雑なタスク(グラウンドベース推論タスク)において満足な性能が欠如していた。
これらの課題に対処するため、我々は、9つの代表タスク、例えば、Common VQA、REC、REG、PointQを含む、様々な高品質な命令チューニングデータを生成する革新的なデータ生成パイプラインGenixerを開発した。
具体的には、Genixerは4つの重要なステップで統一されたソリューションを提供し、データ生成の難しさを軽減する。
(i)命令データ収集
(ii) 命令テンプレートの設計
三 MLLMの強化、及び
(iv)データ生成とフィルタリング。
続いて、我々のGenixerの優れた定性的結果から、現在のMLLMは強力なデータジェネレータに進化する可能性が強いことが示される。
さらに、生成したデータの有効性を定量的に検証するために、2つの代表MLLMのトレーニングにGenixerが生成した命令チューニングデータを追加し、様々なVQAタスクとマルチモーダルベンチマークにおける一貫した改善を観察する。
関連論文リスト
- MAmmoTH2: Scaling Instructions from the Web [39.786198452175505]
そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。
我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。
さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-05-06T15:11:38Z) - Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning [28.667060630303183]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with
Refined Data Generation [23.41247482299201]
4つの普遍的なコード関連タスクにまたがる2万の命令インスタンスからなるデータセットであるCodeOceanを紹介する。
次に、WidespreadとVersatile拡張命令チューニングを備えた微調整コードLLMであるWavecoderを紹介する。
論文 参考訳(メタデータ) (2023-12-20T09:02:29Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Data Diversity Matters for Robust Instruction Tuning [93.87078483250782]
近年の研究では、高品質で多様な命令チューニングデータセットをキュレートすることにより、命令追従能力を大幅に改善できることが示されている。
データセットの多様性と品質を制御できる新しいアルゴリズムQDIT(Quality-Diversity Instruction Tuning)を提案する。
いくつかの大規模命令チューニングデータセット上でのQDITの性能を検証した結果、最悪のケースと平均ケースのパフォーマンスを大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-11-21T19:12:18Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。