論文の概要: MultiMAE: Multi-modal Multi-task Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2204.01678v1
- Date: Mon, 4 Apr 2022 17:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 13:28:32.408179
- Title: MultiMAE: Multi-modal Multi-task Masked Autoencoders
- Title(参考訳): MultiMAE:マルチモーダルマルチタスクマスクオートエンコーダ
- Authors: Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir
- Abstract要約: マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。
我々は、この事前学習戦略が、ダウンストリームタスクへの転送結果を改善した、柔軟で、シンプルで、効率的なフレームワークに繋がることを示す。
- 参考スコア(独自算出の注目度): 2.6763498831034043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a pre-training strategy called Multi-modal Multi-task Masked
Autoencoders (MultiMAE). It differs from standard Masked Autoencoding in two
key aspects: I) it can optionally accept additional modalities of information
in the input besides the RGB image (hence "multi-modal"), and II) its training
objective accordingly includes predicting multiple outputs besides the RGB
image (hence "multi-task").
We make use of masking (across image patches and input modalities) to make
training MultiMAE tractable as well as to ensure cross-modality predictive
coding is indeed learned by the network. We show this pre-training strategy
leads to a flexible, simple, and efficient framework with improved transfer
results to downstream tasks. In particular, the same exact pre-trained network
can be flexibly used when additional information besides RGB images is
available or when no information other than RGB is available - in all
configurations yielding competitive to or significantly better results than the
baselines. To avoid needing training datasets with multiple modalities and
tasks, we train MultiMAE entirely using pseudo labeling, which makes the
framework widely applicable to any RGB dataset.
The experiments are performed on multiple transfer tasks (image
classification, semantic segmentation, depth estimation) and datasets
(ImageNet, ADE20K, Taskonomy, Hypersim, NYUv2). The results show an
intriguingly impressive capability by the model in cross-modal/task predictive
coding and transfer.
- Abstract(参考訳): マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。
標準のMasked Autoencodingとは、RGBイメージ("multi-modal")とRGBイメージ("multi-task")の2つの重要な側面で異なり、そのトレーニング目的はRGBイメージ("multi-task")以外の複数の出力を予測することを含む。
マスキング(画像パッチと入力モダリティを横断する)を利用して、トレーニングをマルチメイトリビュート可能にし、ネットワークによって実際にクロスモダリティ予測コーディングが学べるようにします。
我々は、この事前学習戦略が、下流タスクへの転送結果を改善した柔軟でシンプルで効率的なフレームワークにつながることを示す。
特に、RGBイメージ以外の追加情報やRGB以外の情報がない場合には、同じ完全に事前トレーニングされたネットワークを柔軟に使用することができる。
複数のモダリティとタスクを持つデータセットのトレーニングを避けるために、擬似ラベリングを使ってMultiMAEをトレーニングします。
実験は、複数の転送タスク(画像分類、セマンティックセグメンテーション、深さ推定)とデータセット(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)で実行される。
その結果、クロスモーダル/タスク予測符号化および転送におけるモデルによる興味深い印象的な能力を示した。
関連論文リスト
- Jack of All Tasks, Master of Many: Designing General-purpose
Coarse-to-Fine Vision-Language Model [87.01213887685952]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting [40.4816930622052]
マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群カウントネットワークを提案する。
エンコーダ部では、マルチアテンション・フュージョン(MAF)モジュールを2つのモード固有分岐の異なるステージに埋め込み、クロスモーダル・フュージョンを行う。
2つの人気のあるデータセットに対する大規模な実験は、提案したMAFNetがRGB-Tの群衆カウントに有効であることを示している。
論文 参考訳(メタデータ) (2022-08-14T02:42:09Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。