論文の概要: 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
- arxiv url: http://arxiv.org/abs/2406.09406v2
- Date: Fri, 14 Jun 2024 14:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:17:38.715202
- Title: 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
- Title(参考訳): 4M-21: タスクとモダリティの対話型ビジョンモデル
- Authors: Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir,
- Abstract要約: 1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
- 参考スコア(独自算出の注目度): 17.374241865041856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal and multitask foundation models like 4M or UnifiedIO show promising results, but in practice their out-of-the-box abilities to accept diverse inputs and perform diverse tasks are limited by the (usually rather small) number of modalities and tasks they are trained on. In this paper, we expand upon the capabilities of them by training a single model on tens of highly diverse modalities and by performing co-training on large-scale multimodal datasets and text corpora. This includes training on several semantic and geometric modalities, feature maps from recent state of the art models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM and 4DHumans, and a range of new modalities that allow for novel ways to interact with the model and steer the generation, for example image metadata or color palettes. A crucial step in this process is performing discrete tokenization on various modalities, whether they are image-like, neural network feature maps, vectors, structured data like instance segmentation or human poses, or data that can be represented as text. Through this, we expand on the out-of-the-box capabilities of multimodal models and specifically show the possibility of training one model to solve at least 3x more tasks/modalities than existing ones and doing so without a loss in performance. This enables more fine-grained and controllable multimodal generation capabilities and allows us to study the distillation of models trained on diverse data and objectives into a unified model. We successfully scale the training to a three billion parameter model using tens of modalities and different datasets. The resulting models and training code are open sourced at 4m.epfl.ch.
- Abstract(参考訳): 4MやUnifiedIOのような現在のマルチモーダルおよびマルチタスク基盤モデルは、有望な結果を示しているが、実際には、様々な入力を受け入れ、多様なタスクを実行する能力は、訓練対象のモダリティやタスクの数によって制限される。
本稿では,数十種類の多種多様なモダリティを単一モデルで学習し,大規模マルチモーダルデータセットとテキストコーパスで協調学習を行うことにより,それらの能力を拡張する。
この中には、DINOv2やImageBindのような最近の最先端モデルのフィーチャーマップ、SAMや4DHumansのようなスペシャリストモデルの擬似ラベル、モデルと対話し、画像メタデータやカラーパレットなどの生成を制御できる新しいモダリティなど、いくつかの意味的および幾何学的モダリティのトレーニングが含まれている。
このプロセスの重要なステップは、画像のような、ニューラルネットワークの特徴マップ、ベクトル、インスタンスのセグメンテーションや人間のポーズのような構造化されたデータ、あるいはテキストとして表現できるデータなど、さまざまなモダリティに対して離散的なトークン化を実行することだ。
これにより、マルチモーダルモデルのアウト・オブ・ボックス機能を拡張し、特に1つのモデルで既存のモデルよりも3倍以上のタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを行う可能性を示す。
これにより、よりきめ細かな制御可能なマルチモーダル生成が可能となり、多様なデータと目的に基づいて訓練されたモデルの蒸留を統一されたモデルに研究することができる。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
関連論文リスト
- Self-supervised Pre-training for Transferable Multi-modal Perception [15.93440465377068]
NeRF-Supervised Masked Auto (NS-MAE)は、移動可能なマルチモーダル表現学習のための自己教師付き事前学習パラダイムである。
提案手法は,ニューラルレイディアンスフィールド(NeRF)におけるマスク付きマルチモーダル再構成を用いて,欠落または破損した入力データを再構成するモデルを訓練する。
広範囲な実験により、多モードおよび単一モード知覚モデル間のNS-MAE表現の有望な伝達性を示す。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - 4M: Massively Multimodal Masked Modeling [20.69496647914175]
現在のビジョンのための機械学習モデルは、しばしば高度に専門化されており、単一のモダリティとタスクに限られている。
最近の大規模言語モデルは幅広い能力を示しており、コンピュータビジョンにおける同様の汎用モデルの可能性を示している。
視覚タスクのための多目的かつスケーラブルな基礎モデルをトレーニングするためのマルチモーダルトレーニングスキームである4Mを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。