Fugu-MT 論文翻訳(概要): Generative Visual Instruction Tuning

論文の概要: Generative Visual Instruction Tuning

arxiv url: http://arxiv.org/abs/2406.11262v1
Date: Mon, 17 Jun 2024 07:06:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 18:04:29.197709
Title: Generative Visual Instruction Tuning
Title（参考訳）: 生成的視覚インストラクションチューニング
Authors: Jefferson Hernandez, Ruben Villegas, Vicente Ordonez,
Abstract要約: 本稿では,大規模マルチモーダルモデルのゼロショット機能を改善するために,機械学習による命令追従データを提案する。 GenLLaVA、ジェネレーティブ・大型言語、そしてビジュアルアシスタントを作成します。我々のモデルはLLaVAと同等の視覚的理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
参考スコア（独自算出の注目度）: 11.727612242016871
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose to use machine-generated instruction-following data to improve the zero-shot capabilities of a large multimodal model with additional support for generative and image editing tasks. We achieve this by curating a new multimodal instruction-following set using GPT-4V and existing datasets for image generation and editing. Using this instruction set and the existing LLaVA-Finetune instruction set for visual understanding tasks, we produce GenLLaVA, a Generative Large Language, and Visual Assistant. GenLLaVA is built through a strategy that combines three types of large pre-trained models through instruction finetuning: LLaMA for language modeling, SigLIP for image-text matching, and StableDiffusion for text-to-image generation. Our model demonstrates visual understanding capabilities on par with LLaVA and additionally demonstrates competitive results with native multimodal models such as Unified-IO 2, paving the way for building advanced general-purpose visual assistants by effectively re-using existing multimodal models. We open-source our dataset, codebase, and model checkpoints to foster further research and application in this domain.
Abstract（参考訳）: 本稿では,大規模マルチモーダルモデルのゼロショット機能を改善するために,生成タスクと画像編集タスクを付加した機械学習命令追従データを提案する。我々は、GPT-4Vと既存のデータセットを用いて、画像生成と編集のための新しいマルチモーダル命令フォローセットをキュレートすることで、これを実現する。この命令セットと既存のLLaVA-Finetune命令セットを視覚的理解タスクに使用し、生成大言語であるGenLLaVAとVisual Assistantを生成する。 GenLLaVAは、言語モデリングのためのLLaMA、画像テキストマッチングのためのSigLIP、テキスト・ツー・イメージ生成のためのStableDiffusionの3つのタイプを組み合わせた戦略によって構築されている。我々のモデルはLLaVAと同等の視覚理解能力を示し、また既存のマルチモーダルモデルを効果的に再利用し、高度な汎用視覚アシスタントを構築するための道を開くために、Unified-IO 2のようなネイティブマルチモーダルモデルと競合する結果を示す。この領域におけるさらなる研究と応用を促進するために、データセット、コードベース、モデルチェックポイントをオープンソースにしています。

関連論文リスト

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文参考訳（メタデータ） (2025-05-14T17:11:07Z)
VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。 VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文参考訳（メタデータ） (2025-01-21T17:50:43Z)
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-30T17:56:27Z)
MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment [39.407235223184195]
MM-Instructは、多種多様な高品質な視覚命令データの大規模なデータセットである。大規模マルチモーダルモデルの命令追従能力を向上させるように設計されている。
論文参考訳（メタデータ） (2024-06-28T08:25:27Z)
Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。 IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文参考訳（メタデータ） (2024-05-30T07:48:32Z)
Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。画像生成のための*multi-modal instruction*を導入する。画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文参考訳（メタデータ） (2024-01-03T19:31:58Z)
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。 UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文参考訳（メタデータ） (2023-10-01T12:35:18Z)
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文参考訳（メタデータ） (2023-09-30T14:26:43Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。