論文の概要: Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants
- arxiv url: http://arxiv.org/abs/2310.00653v1
- Date: Sun, 1 Oct 2023 12:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:50:27.619125
- Title: Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants
- Title(参考訳): 汎用マルチモーダルアシスタントに向けた視覚言語基礎モデルとデータセットの再構成
- Authors: Tianyu Yu, Jinyi Hu, Yuan Yao, Haoye Zhang, Yue Zhao, Chongyi Wang,
Shan Wang, Yinxv Pan, Jiao Xue, Dahai Li, Zhiyuan Liu, Hai-Tao Zheng, Maosong
Sun
- Abstract要約: Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
- 参考スコア(独自算出の注目度): 65.47222691674074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Multimodal Large Language Models (MLLMs) exhibit impressive abilities
to perceive images and follow open-ended instructions. The capabilities of
MLLMs depend on two crucial factors: the model architecture to facilitate the
feature alignment of visual modules and large language models; the multimodal
instruction tuning datasets for human instruction following. (i) For the model
architecture, most existing models introduce an external bridge module to
connect vision encoders with language models, which needs an additional
feature-alignment pre-training. In this work, we discover that compact
pre-trained vision language models can inherently serve as ``out-of-the-box''
bridges between vision and language. Based on this, we propose Muffin
framework, which directly employs pre-trained vision-language models to act as
providers of visual signals. (ii) For the multimodal instruction tuning
datasets, existing methods omit the complementary relationship between
different datasets and simply mix datasets from different tasks. Instead, we
propose UniMM-Chat dataset which explores the complementarities of datasets to
generate 1.1M high-quality and diverse multimodal instructions. We merge
information describing the same image from diverse datasets and transforms it
into more knowledge-intensive conversation data. Experimental results
demonstrate the effectiveness of the Muffin framework and UniMM-Chat dataset.
Muffin achieves state-of-the-art performance on a wide range of vision-language
tasks, significantly surpassing state-of-the-art models like LLaVA and
InstructBLIP. Our model and dataset are all accessible at
https://github.com/thunlp/muffin.
- Abstract(参考訳): 最近のMLLM(Multimodal Large Language Models)は、画像を認識し、オープンエンドの指示に従うという印象的な能力を示している。
MLLMの能力は、視覚モジュールと大規模言語モデルの機能アライメントを容易にするモデルアーキテクチャと、人間の指示に従うためのマルチモーダル命令チューニングデータセットの2つの重要な要素に依存している。
(i)モデルアーキテクチャでは、既存のほとんどのモデルでは、視覚エンコーダと言語モデルとを接続するための外部ブリッジモジュールが導入されている。
本研究では,視覚と言語の間の'out-of-the-box'ブリッジとして,コンパクトな事前学習型視覚言語モデルが本質的に機能することを明らかにする。
そこで本研究では,視覚言語モデルを用いて視覚信号の供給を行うmuffinフレームワークを提案する。
(ii)マルチモーダルなチューニングチューニングデータセットの場合、既存のメソッドは異なるデータセット間の補完関係を省略し、異なるタスクからデータセットを単純に混合する。
代わりに、データセットの相補性を探索し、1.1mの高品質で多様なマルチモーダル命令を生成するunimm-chatデータセットを提案する。
多様なデータセットから同じ画像を記述する情報をマージし、より知識集約的な会話データに変換する。
実験結果は,muffinフレームワークとunimm-chatデータセットの有効性を示す。
Muffinは様々な視覚言語タスクで最先端のパフォーマンスを実現し、LLaVAやInstructBLIPのような最先端モデルを大幅に上回っている。
私たちのモデルとデータセットは、すべてhttps://github.com/thunlp/muffinからアクセスできます。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。