論文の概要: MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment
- arxiv url: http://arxiv.org/abs/2406.19736v1
- Date: Fri, 28 Jun 2024 08:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:29:51.666309
- Title: MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment
- Title(参考訳): MM-インストラクション:大規模マルチモーダルモデルアライメントのためのビジュアルインストラクションの生成
- Authors: Jihao Liu, Xin Huang, Jinliang Zheng, Boxiao Liu, Jia Wang, Osamu Yoshie, Yu Liu, Hongsheng Li,
- Abstract要約: MM-Instructは、多種多様な高品質な視覚命令データの大規模なデータセットである。
大規模マルチモーダルモデルの命令追従能力を向上させるように設計されている。
- 参考スコア(独自算出の注目度): 39.407235223184195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MM-Instruct, a large-scale dataset of diverse and high-quality visual instruction data designed to enhance the instruction-following capabilities of large multimodal models (LMMs). While existing visual instruction datasets often focus on question-answering, they struggle to generalize to broader application scenarios such as creative writing, summarization, or image analysis. To address these limitations, we propose a novel approach to constructing MM-Instruct that leverages the strong instruction-following capabilities of existing LLMs to generate novel visual instruction data from large-scale but conventional image captioning datasets. MM-Instruct first leverages ChatGPT to automatically generate diverse instructions from a small set of seed instructions through augmenting and summarization. It then matches these instructions with images and uses an open-sourced large language model (LLM) to generate coherent answers to the instruction-image pairs. The LLM is grounded by the detailed text descriptions of images in the whole answer generation process to guarantee the alignment of the instruction data. Moreover, we introduce a benchmark based on the generated instruction data to evaluate the instruction-following capabilities of existing LMMs. We demonstrate the effectiveness of MM-Instruct by training a LLaVA-1.5 model on the generated data, denoted as LLaVA-Instruct, which exhibits significant improvements in instruction-following capabilities compared to LLaVA-1.5 models. The MM-Instruct dataset, benchmark, and pre-trained models are available at https://github.com/jihaonew/MM-Instruct.
- Abstract(参考訳): 本稿では,大規模マルチモーダルモデル(LMM)の命令追従能力を高めるために,多種多様な高品質な視覚的命令データの大規模データセットであるMM-Instructを紹介する。
既存のビジュアルインストラクションデータセットは、しばしば質問回答に焦点を当てるが、クリエイティブな記述や要約、イメージ分析といった、より広範なアプリケーションシナリオへの一般化に苦慮している。
これらの制約に対処するために,既存のLLMの強力な命令追従機能を活用して,大規模だが従来型の画像キャプションデータセットから新たな視覚的命令データを生成するMM-インストラクトの構築手法を提案する。
MM-InstructはまずChatGPTを利用して、拡張と要約を通じて、小さなシード命令セットから多様な命令を自動的に生成する。
次に、これらの命令をイメージとマッチングし、オープンソースの大言語モデル(LLM)を使用して、命令-イメージペアに対する一貫性のある回答を生成する。
LLMは、全回答生成プロセスにおける画像の詳細なテキスト記述により、命令データのアライメントを保証する。
さらに、既存のLMMの命令追従能力を評価するために、生成された命令データに基づくベンチマークを導入する。
LLaVA-1.5モデルに対して,LLaVA-1.5モデルに対するMM-Instructの有効性を示す。
MM-Instructのデータセット、ベンチマーク、事前トレーニングされたモデルはhttps://github.com/jihaonew/MM-Instructで入手できる。
関連論文リスト
- Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - Generative Visual Instruction Tuning [11.727612242016871]
本稿では,大規模なマルチモーダルモデルのゼロショット機能を改善するために,自動生成した命令追従データを提案する。
GenLLaVAは、ジェネレーティブな大言語であり、ビジュアルアシスタントである。
我々のモデルはLLaVAよりも優れた視覚理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
論文 参考訳(メタデータ) (2024-06-17T07:06:58Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? [158.96530466189986]
マルチモーダルな大規模言語モデル (MLLM) は、視覚言語タスクにおいて有望な命令に従う能力を示している。
我々は,事前学習や微調整において,そのようなデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。
我々は、テキストモダリティと視覚モダリティの両方で、堅牢な指示を実行できる一般化可能なモデルであるv-MLLMを訓練する。
論文 参考訳(メタデータ) (2023-11-29T14:08:53Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [111.01953096869947]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上に視覚的指導チューニングが不可欠である
我々は,高品質な視覚的推論命令を自動生成する体系的手法を開発した。
実験結果から, MLLMの強化性能が一貫した結果を得た。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。