論文の概要: MultiMAE: Multi-modal Multi-task Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2204.01678v1
- Date: Mon, 4 Apr 2022 17:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 13:28:32.408179
- Title: MultiMAE: Multi-modal Multi-task Masked Autoencoders
- Title(参考訳): MultiMAE:マルチモーダルマルチタスクマスクオートエンコーダ
- Authors: Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir
- Abstract要約: マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。
我々は、この事前学習戦略が、ダウンストリームタスクへの転送結果を改善した、柔軟で、シンプルで、効率的なフレームワークに繋がることを示す。
- 参考スコア(独自算出の注目度): 2.6763498831034043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a pre-training strategy called Multi-modal Multi-task Masked
Autoencoders (MultiMAE). It differs from standard Masked Autoencoding in two
key aspects: I) it can optionally accept additional modalities of information
in the input besides the RGB image (hence "multi-modal"), and II) its training
objective accordingly includes predicting multiple outputs besides the RGB
image (hence "multi-task").
We make use of masking (across image patches and input modalities) to make
training MultiMAE tractable as well as to ensure cross-modality predictive
coding is indeed learned by the network. We show this pre-training strategy
leads to a flexible, simple, and efficient framework with improved transfer
results to downstream tasks. In particular, the same exact pre-trained network
can be flexibly used when additional information besides RGB images is
available or when no information other than RGB is available - in all
configurations yielding competitive to or significantly better results than the
baselines. To avoid needing training datasets with multiple modalities and
tasks, we train MultiMAE entirely using pseudo labeling, which makes the
framework widely applicable to any RGB dataset.
The experiments are performed on multiple transfer tasks (image
classification, semantic segmentation, depth estimation) and datasets
(ImageNet, ADE20K, Taskonomy, Hypersim, NYUv2). The results show an
intriguingly impressive capability by the model in cross-modal/task predictive
coding and transfer.
- Abstract(参考訳): マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。
標準のMasked Autoencodingとは、RGBイメージ("multi-modal")とRGBイメージ("multi-task")の2つの重要な側面で異なり、そのトレーニング目的はRGBイメージ("multi-task")以外の複数の出力を予測することを含む。
マスキング(画像パッチと入力モダリティを横断する)を利用して、トレーニングをマルチメイトリビュート可能にし、ネットワークによって実際にクロスモダリティ予測コーディングが学べるようにします。
我々は、この事前学習戦略が、下流タスクへの転送結果を改善した柔軟でシンプルで効率的なフレームワークにつながることを示す。
特に、RGBイメージ以外の追加情報やRGB以外の情報がない場合には、同じ完全に事前トレーニングされたネットワークを柔軟に使用することができる。
複数のモダリティとタスクを持つデータセットのトレーニングを避けるために、擬似ラベリングを使ってMultiMAEをトレーニングします。
実験は、複数の転送タスク(画像分類、セマンティックセグメンテーション、深さ推定)とデータセット(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)で実行される。
その結果、クロスモーダル/タスク予測符号化および転送におけるモデルによる興味深い印象的な能力を示した。
関連論文リスト
- Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。
IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文 参考訳(メタデータ) (2024-05-30T07:48:32Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。