論文の概要: Large Multimodal Models: Notes on CVPR 2023 Tutorial
- arxiv url: http://arxiv.org/abs/2306.14895v1
- Date: Mon, 26 Jun 2023 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:08:59.281026
- Title: Large Multimodal Models: Notes on CVPR 2023 Tutorial
- Title(参考訳): 大規模マルチモーダルモデル:cvpr 2023チュートリアルの注意点
- Authors: Chunyuan Li
- Abstract要約: このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models' の一部である。
視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。
前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。
最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
- 参考スコア(独自算出の注目度): 29.777209669589183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This tutorial note summarizes the presentation on ``Large Multimodal Models:
Towards Building and Surpassing Multimodal GPT-4'', a part of CVPR 2023
tutorial on ``Recent Advances in Vision Foundation Models''. The tutorial
consists of three parts. We first introduce the background on recent GPT-like
large models for vision-and-language modeling to motivate the research in
instruction-tuned large multimodal models (LMMs). As a pre-requisite, we
describe the basics of instruction-tuning in large language models, which is
further extended to the multimodal space. Lastly, we illustrate how to build
the minimum prototype of multimodal GPT-4 like models with the open-source
resource, and review the recently emerged topics.
- Abstract(参考訳): 本チュートリアルでは, cvpr 2023 チュートリアル "recent advances in vision foundation models'' の一環として, ``large multimodal models: towards building and exceeding multimodal gpt-4''' というプレゼンテーションを要約する。
チュートリアルは3つの部分からなる。
まず,近年の GPT のような大規模モデルによる視覚・言語モデリングの背景について紹介し,命令調整型大規模マルチモーダルモデル (LMM) の研究を動機づける。
前提条件として,マルチモーダル空間に拡張された大規模言語モデルにおける命令チューニングの基本について述べる。
最後に,マルチモーダルgpt-4likeモデルの最小限のプロトタイプをオープンソースリソースで構築する方法を説明し,最近登場したトピックをレビューする。
関連論文リスト
- Towards Multi-Modal Mastery: A 4.5B Parameter Truly Multi-Modal Small Language Model [0.0]
本稿では,複数入力と出力のモダリティを扱える新しい4.5Bパラメータ小言語モデルを提案する。
モデルのサイズは小さいが、様々なタスクにおける最先端のパフォーマンスをほぼ達成している。
論文 参考訳(メタデータ) (2024-11-08T17:15:17Z) - Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。
最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。
ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文 参考訳(メタデータ) (2024-10-08T01:41:56Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - What Matters in Training a GPT4-Style Language Model with Multimodal
Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。
これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。
本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文 参考訳(メタデータ) (2023-07-05T17:44:28Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。