論文の概要: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans
- arxiv url: http://arxiv.org/abs/2305.04790v1
- Date: Mon, 8 May 2023 15:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 13:51:04.535480
- Title: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans
- Title(参考訳): マルチモーダルGPT:人との対話のためのビジョンと言語モデル
- Authors: Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qian
Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, Kai Chen
- Abstract要約: 視覚と言語モデルであるMultiModal-GPTを提案する。
まず,マルチモーダル・インストラクション・チューニングのための視覚と言語データを用いたインストラクション・テンプレートを構築した。
我々は、言語のみの命令追跡データを用いて、MultiModal-GPTを共同で訓練する。
- 参考スコア(独自算出の注目度): 27.33646762190971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a vision and language model named MultiModal-GPT to conduct
multi-round dialogue with humans. MultiModal-GPT can follow various
instructions from humans, such as generating a detailed caption, counting the
number of interested objects, and answering general questions from users.
MultiModal-GPT is parameter-efficiently fine-tuned from OpenFlamingo, with
Low-rank Adapter (LoRA) added both in the cross-attention part and the
self-attention part of the language model. We first construct instruction
templates with vision and language data for multi-modality instruction tuning
to make the model understand and follow human instructions. We find the quality
of training data is vital for the dialogue performance, where few data
containing short answers can lead the model to respond shortly to any
instructions. To further enhance the ability to chat with humans of the
MultiModal-GPT, we utilize language-only instruction-following data to train
the MultiModal-GPT jointly. The joint training of language-only and
visual-language instructions with the \emph{same} instruction template
effectively improves dialogue performance. Various demos show the ability of
continuous dialogue of MultiModal-GPT with humans. Code and demo are at
https://github.com/open-mmlab/Multimodal-GPT
- Abstract(参考訳): 本稿では,マルチモーダルgptというビジョンと言語モデルを提案する。
マルチモーダルGPTは、詳細なキャプションの作成、興味のあるオブジェクトの数を数え、ユーザからの一般的な質問に答えるなど、人間からのさまざまな指示に従うことができる。
MultiModal-GPTはOpenFlamingoからパラメータ効率よく微調整され、言語モデルのクロスアテンション部分と自己アテンション部分にローランクアダプタ(LoRA)が追加された。
まず,マルチモダリティ・インストラクション・チューニングのための視覚と言語データを用いたインストラクションテンプレートを構築し,モデルが人間の指示を理解し従わせるようにした。
学習データの品質は対話のパフォーマンスに不可欠であり、短い回答を含むデータが少ないと、モデルがどんな指示にもすぐに反応する可能性がある。
マルチモーダルGPTの人間とチャットする能力をさらに強化するために,言語のみの指示追従データを用いて,マルチモーダルGPTを共同で訓練する。
emph{same} 命令テンプレートによる言語のみおよび視覚言語命令の併用訓練は,対話性能を効果的に向上させる。
様々なデモでは、マルチモーダルGPTと人間との連続的な対話能力を示している。
コードとデモはhttps://github.com/open-mmlab/multimodal-gpt
関連論文リスト
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - LLaSM: Large Language and Speech Model [11.885798177819114]
大言語・音声モデル(Large Language and Speech Model, LLaSM)は、多モーダル言語モデルである。
初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。
論文 参考訳(メタデータ) (2023-08-30T10:12:39Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal
Conversational Abilities [39.07096632751864]
SpeechGPTは、固有のクロスモーダルな会話能力を持つ大きな言語モデルである。
我々は、モダリティ適応事前訓練、クロスモーダル命令微調整、チェーン・オブ・モダリティ命令微調整を含む3段階の訓練戦略を採用する。
論文 参考訳(メタデータ) (2023-05-18T14:23:25Z) - ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented
Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。
モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。
高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文 参考訳(メタデータ) (2023-04-16T18:16:35Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。