論文の概要: mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality
- arxiv url: http://arxiv.org/abs/2304.14178v3
- Date: Fri, 29 Mar 2024 08:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:56:17.086160
- Title: mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality
- Title(参考訳): mPLUG-Owl:マルチモーダリティを持つ大規模言語モデルを実現するモジュール化
- Authors: Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou,
- Abstract要約: mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 95.76661165594884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive zero-shot abilities on a variety of open-ended tasks, while recent research has also explored the use of LLMs for multi-modal generation. In this study, we introduce mPLUG-Owl, a novel training paradigm that equips LLMs with multi-modal abilities through modularized learning of foundation LLM, a visual knowledge module, and a visual abstractor module. This approach can support multiple modalities and facilitate diverse unimodal and multimodal abilities through modality collaboration. The training paradigm of mPLUG-Owl involves a two-stage method for aligning image and text, which learns visual knowledge with the assistance of LLM while maintaining and even improving the generation abilities of LLM. In the first stage, the visual knowledge module and abstractor module are trained with a frozen LLM module to align the image and text. In the second stage, language-only and multi-modal supervised datasets are used to jointly fine-tune a low-rank adaption (LoRA) module on LLM and the abstractor module by freezing the visual knowledge module. We carefully build a visually-related instruction evaluation set OwlEval. Experimental results show that our model outperforms existing multi-modal models, demonstrating mPLUG-Owl's impressive instruction and visual understanding ability, multi-turn conversation ability, and knowledge reasoning ability. Besides, we observe some unexpected and exciting abilities such as multi-image correlation and scene text understanding, which makes it possible to leverage it for harder real scenarios, such as vision-only document comprehension. Our code, pre-trained model, instruction-tuned models, and evaluation set are available at https://github.com/X-PLUG/mPLUG-Owl. The online demo is available at https://www.modelscope.cn/studios/damo/mPLUG-Owl.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なオープンエンドタスクにおいて印象的なゼロショット能力を示し、最近の研究では、マルチモーダル生成にLLMを使うことも検討されている。
本研究では,基礎LLMのモジュール化学習,視覚知識モジュール,視覚抽象モジュールなどを通じて,LLMにマルチモーダル能力を持たせる新しいトレーニングパラダイムであるmPLUG-Owlを紹介する。
このアプローチは、複数のモダリティをサポートし、モダリティの協調を通じて、多様なモダリティとマルチモーダルの能力を促進する。
mPLUG-Owlのトレーニングパラダイムには、画像とテキストの整列のための2段階の手法が含まれており、LLMの生成能力を維持し、改善しながら、LLMの助けを借りて視覚知識を学ぶ。
第1段階では、視覚知識モジュールと抽象モジュールが凍結LDMモジュールで訓練され、画像とテキストが整列される。
第2段階では、言語のみおよびマルチモーダル教師付きデータセットを使用して、視覚的知識モジュールを凍結することにより、LLMと抽象モジュールの低ランク適応(LoRA)モジュールを協調的に微調整する。
我々は、視覚関連命令評価セットOwlEvalを慎重に構築する。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れており,mPLUG-Owlの印象的な指導と視覚的理解能力,マルチターン会話能力,知識推論能力などが示された。
さらに,複数画像の相関やシーンテキストの理解など,予期せぬ,エキサイティングな能力が観察され,視覚のみの文書理解など,より複雑なシナリオに活用できるようになった。
我々のコード、事前訓練されたモデル、命令調整されたモデル、評価セットはhttps://github.com/X-PLUG/mPLUG-Owl.comで入手できる。
オンラインデモはhttps://www.modelscope.cn/studios/damo/mPLUG-Owl.comで公開されている。
関連論文リスト
- NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。