論文の概要: 4M: Massively Multimodal Masked Modeling
- arxiv url: http://arxiv.org/abs/2312.06647v1
- Date: Mon, 11 Dec 2023 18:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:07:21.460766
- Title: 4M: Massively Multimodal Masked Modeling
- Title(参考訳): 4m:巨大なマルチモーダルマスクモデリング
- Authors: David Mizrahi, Roman Bachmann, O\u{g}uzhan Fatih Kar, Teresa Yeo,
Mingfei Gao, Afshin Dehghan, Amir Zamir
- Abstract要約: 現在のビジョンのための機械学習モデルは、しばしば高度に専門化されており、単一のモダリティとタスクに限られている。
最近の大規模言語モデルは幅広い能力を示しており、コンピュータビジョンにおける同様の汎用モデルの可能性を示している。
視覚タスクのための多目的かつスケーラブルな基礎モデルをトレーニングするためのマルチモーダルトレーニングスキームである4Mを提案する。
- 参考スコア(独自算出の注目度): 20.69496647914175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current machine learning models for vision are often highly specialized and
limited to a single modality and task. In contrast, recent large language
models exhibit a wide range of capabilities, hinting at a possibility for
similarly versatile models in computer vision. In this paper, we take a step in
this direction and propose a multimodal training scheme called 4M. It consists
of training a single unified Transformer encoder-decoder using a masked
modeling objective across a wide range of input/output modalities - including
text, images, geometric, and semantic modalities, as well as neural network
feature maps. 4M achieves scalability by unifying the representation space of
all modalities through mapping them into discrete tokens and performing
multimodal masked modeling on a small randomized subset of tokens.
4M leads to models that exhibit several key capabilities: (1) they can
perform a diverse set of vision tasks out of the box, (2) they excel when
fine-tuned for unseen downstream tasks or new input modalities, and (3) they
can function as a generative model that can be conditioned on arbitrary
modalities, enabling a wide variety of expressive multimodal editing
capabilities with remarkable flexibility.
Through experimental analyses, we demonstrate the potential of 4M for
training versatile and scalable foundation models for vision tasks, setting the
stage for further exploration in multimodal learning for vision and other
domains.
- Abstract(参考訳): 現在のビジョンのための機械学習モデルは、しばしば高度に専門化されており、単一のモダリティとタスクに限られている。
対照的に、最近の大規模言語モデルは幅広い機能を示しており、コンピュータビジョンにおける同様の多用途モデルの可能性を示している。
本稿では,この方向への一歩を踏み出し,4Mと呼ばれるマルチモーダルトレーニング手法を提案する。
それは、テキスト、画像、幾何学、意味的モダリティ、ニューラルネットワークの特徴マップを含む、幅広い入出力モダリティにわたってマスクモデリングの目的を用いて、単一の統一トランスフォーマエンコーダ-デコーダをトレーニングする。
4M は,任意のモダリティの表現空間を離散トークンにマッピングし,トークンのランダム化部分集合上でマルチモーダルマスクモデリングを行うことにより,スケーラビリティを実現する。
4m はいくつかの重要な能力を示すモデルをもたらす: (1) 様々な視覚タスクを最初から実行できる、(2) 知覚できない下流タスクや新しい入力モダリティのために微調整された時に優れている、(3) 任意のモダリティを条件とした生成モデルとして機能する、様々な表現力のあるマルチモーダル編集機能を可能にする。
実験分析により、視覚タスクのための多目的かつスケーラブルな基礎モデルをトレーニングするための4Mの可能性を示し、視覚や他の領域に対するマルチモーダル学習のさらなる探索のステージを設定した。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Generative Multimodal Models are In-Context Learners [62.31022638619485]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Towards Transferable Multi-modal Perception Representation Learning for
Autonomy: NeRF-Supervised Masked AutoEncoder [1.90365714903665]
本研究では,伝達可能な多モード認識表現学習のための自己教師付き事前学習フレームワークを提案する。
我々は,NeRF-Supervised Masked AutoEncoder (NS-MAE) を用いて学習した表現が,マルチモーダルおよびシングルモーダル(カメラのみ,ライダーのみ)の知覚モデルに対して有望な伝達性を示すことを示す。
この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。
論文 参考訳(メタデータ) (2023-11-23T00:53:11Z) - UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized
Multimodal Framework [51.01581167257862]
UnifiedVisionGPTは、SOTAビジョンモデルの統合と自動化を目的とした新しいフレームワークである。
本稿では,UnifiedVisionGPTのアーキテクチャと機能について概説し,コンピュータビジョンの分野に革命をもたらす可能性を示す。
論文 参考訳(メタデータ) (2023-11-16T13:01:25Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。