論文の概要: Generative Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2406.11262v1
- Date: Mon, 17 Jun 2024 07:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:04:29.197709
- Title: Generative Visual Instruction Tuning
- Title(参考訳): 生成的視覚インストラクションチューニング
- Authors: Jefferson Hernandez, Ruben Villegas, Vicente Ordonez,
- Abstract要約: 本稿では,大規模マルチモーダルモデルのゼロショット機能を改善するために,機械学習による命令追従データを提案する。
GenLLaVA、ジェネレーティブ・大型言語、そしてビジュアルアシスタントを作成します。
我々のモデルはLLaVAと同等の視覚的理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
- 参考スコア(独自算出の注目度): 11.727612242016871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose to use machine-generated instruction-following data to improve the zero-shot capabilities of a large multimodal model with additional support for generative and image editing tasks. We achieve this by curating a new multimodal instruction-following set using GPT-4V and existing datasets for image generation and editing. Using this instruction set and the existing LLaVA-Finetune instruction set for visual understanding tasks, we produce GenLLaVA, a Generative Large Language, and Visual Assistant. GenLLaVA is built through a strategy that combines three types of large pre-trained models through instruction finetuning: LLaMA for language modeling, SigLIP for image-text matching, and StableDiffusion for text-to-image generation. Our model demonstrates visual understanding capabilities on par with LLaVA and additionally demonstrates competitive results with native multimodal models such as Unified-IO 2, paving the way for building advanced general-purpose visual assistants by effectively re-using existing multimodal models. We open-source our dataset, codebase, and model checkpoints to foster further research and application in this domain.
- Abstract(参考訳): 本稿では,大規模マルチモーダルモデルのゼロショット機能を改善するために,生成タスクと画像編集タスクを付加した機械学習命令追従データを提案する。
我々は、GPT-4Vと既存のデータセットを用いて、画像生成と編集のための新しいマルチモーダル命令フォローセットをキュレートすることで、これを実現する。
この命令セットと既存のLLaVA-Finetune命令セットを視覚的理解タスクに使用し、生成大言語であるGenLLaVAとVisual Assistantを生成する。
GenLLaVAは、言語モデリングのためのLLaMA、画像テキストマッチングのためのSigLIP、テキスト・ツー・イメージ生成のためのStableDiffusionの3つのタイプを組み合わせた戦略によって構築されている。
我々のモデルはLLaVAと同等の視覚理解能力を示し、また既存のマルチモーダルモデルを効果的に再利用し、高度な汎用視覚アシスタントを構築するための道を開くために、Unified-IO 2のようなネイティブマルチモーダルモデルと競合する結果を示す。
この領域におけるさらなる研究と応用を促進するために、データセット、コードベース、モデルチェックポイントをオープンソースにしています。
関連論文リスト
- MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment [39.407235223184195]
MM-Instructは、多種多様な高品質な視覚命令データの大規模なデータセットである。
大規模マルチモーダルモデルの命令追従能力を向上させるように設計されている。
論文 参考訳(メタデータ) (2024-06-28T08:25:27Z) - Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある汎用的な視覚的接地モデルである。
IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文 参考訳(メタデータ) (2024-05-30T07:48:32Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。