論文の概要: Large Multimodal Models: Notes on CVPR 2023 Tutorial
- arxiv url: http://arxiv.org/abs/2306.14895v1
- Date: Mon, 26 Jun 2023 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:08:59.281026
- Title: Large Multimodal Models: Notes on CVPR 2023 Tutorial
- Title(参考訳): 大規模マルチモーダルモデル:cvpr 2023チュートリアルの注意点
- Authors: Chunyuan Li
- Abstract要約: このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models' の一部である。
視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。
前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。
最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
- 参考スコア(独自算出の注目度): 29.777209669589183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This tutorial note summarizes the presentation on ``Large Multimodal Models:
Towards Building and Surpassing Multimodal GPT-4'', a part of CVPR 2023
tutorial on ``Recent Advances in Vision Foundation Models''. The tutorial
consists of three parts. We first introduce the background on recent GPT-like
large models for vision-and-language modeling to motivate the research in
instruction-tuned large multimodal models (LMMs). As a pre-requisite, we
describe the basics of instruction-tuning in large language models, which is
further extended to the multimodal space. Lastly, we illustrate how to build
the minimum prototype of multimodal GPT-4 like models with the open-source
resource, and review the recently emerged topics.
- Abstract(参考訳): 本チュートリアルでは, cvpr 2023 チュートリアル "recent advances in vision foundation models'' の一環として, ``large multimodal models: towards building and exceeding multimodal gpt-4''' というプレゼンテーションを要約する。
チュートリアルは3つの部分からなる。
まず,近年の GPT のような大規模モデルによる視覚・言語モデリングの背景について紹介し,命令調整型大規模マルチモーダルモデル (LMM) の研究を動機づける。
前提条件として,マルチモーダル空間に拡張された大規模言語モデルにおける命令チューニングの基本について述べる。
最後に,マルチモーダルgpt-4likeモデルの最小限のプロトタイプをオープンソースリソースで構築する方法を説明し,最近登場したトピックをレビューする。
関連論文リスト
- Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - What Matters in Training a GPT4-Style Language Model with Multimodal
Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。
これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。
本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文 参考訳(メタデータ) (2023-07-05T17:44:28Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal
Conversational Abilities [39.07096632751864]
SpeechGPTは、固有のクロスモーダルな会話能力を持つ大きな言語モデルである。
我々は、モダリティ適応事前訓練、クロスモーダル命令微調整、チェーン・オブ・モダリティ命令微調整を含む3段階の訓練戦略を採用する。
論文 参考訳(メタデータ) (2023-05-18T14:23:25Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。