Fugu-MT 論文翻訳(概要): MultiMAE: Multi-modal Multi-task Masked Autoencoders

論文の概要: MultiMAE: Multi-modal Multi-task Masked Autoencoders

arxiv url: http://arxiv.org/abs/2204.01678v1
Date: Mon, 4 Apr 2022 17:50:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-05 13:28:32.408179
Title: MultiMAE: Multi-modal Multi-task Masked Autoencoders
Title（参考訳）: MultiMAE:マルチモーダルマルチタスクマスクオートエンコーダ
Authors: Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir
Abstract要約: マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。我々は、この事前学習戦略が、ダウンストリームタスクへの転送結果を改善した、柔軟で、シンプルで、効率的なフレームワークに繋がることを示す。
参考スコア（独自算出の注目度）: 2.6763498831034043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a pre-training strategy called Multi-modal Multi-task Masked Autoencoders (MultiMAE). It differs from standard Masked Autoencoding in two key aspects: I) it can optionally accept additional modalities of information in the input besides the RGB image (hence "multi-modal"), and II) its training objective accordingly includes predicting multiple outputs besides the RGB image (hence "multi-task"). We make use of masking (across image patches and input modalities) to make training MultiMAE tractable as well as to ensure cross-modality predictive coding is indeed learned by the network. We show this pre-training strategy leads to a flexible, simple, and efficient framework with improved transfer results to downstream tasks. In particular, the same exact pre-trained network can be flexibly used when additional information besides RGB images is available or when no information other than RGB is available - in all configurations yielding competitive to or significantly better results than the baselines. To avoid needing training datasets with multiple modalities and tasks, we train MultiMAE entirely using pseudo labeling, which makes the framework widely applicable to any RGB dataset. The experiments are performed on multiple transfer tasks (image classification, semantic segmentation, depth estimation) and datasets (ImageNet, ADE20K, Taskonomy, Hypersim, NYUv2). The results show an intriguingly impressive capability by the model in cross-modal/task predictive coding and transfer.
Abstract（参考訳）: マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。標準のMasked Autoencodingとは、RGBイメージ("multi-modal")とRGBイメージ("multi-task")の2つの重要な側面で異なり、そのトレーニング目的はRGBイメージ("multi-task")以外の複数の出力を予測することを含む。マスキング(画像パッチと入力モダリティを横断する)を利用して、トレーニングをマルチメイトリビュート可能にし、ネットワークによって実際にクロスモダリティ予測コーディングが学べるようにします。我々は、この事前学習戦略が、下流タスクへの転送結果を改善した柔軟でシンプルで効率的なフレームワークにつながることを示す。特に、RGBイメージ以外の追加情報やRGB以外の情報がない場合には、同じ完全に事前トレーニングされたネットワークを柔軟に使用することができる。複数のモダリティとタスクを持つデータセットのトレーニングを避けるために、擬似ラベリングを使ってMultiMAEをトレーニングします。実験は、複数の転送タスク(画像分類、セマンティックセグメンテーション、深さ推定)とデータセット(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)で実行される。その結果、クロスモーダル/タスク予測符号化および転送におけるモデルによる興味深い印象的な能力を示した。

関連論文リスト

MultiMAE Meets Earth Observation: Pre-training Multi-modal Multi-task Masked Autoencoders for Earth Observation Tasks [11.359741665798195]
本稿では,地球観測(EO)データに対する,より柔軟なマルチモーダル・マルチタスク事前学習戦略について検討する。具体的には,マルチモーダルなマルチタスク・マスケッド・オートエンコーダ(MultiMAE)を採用し,多様な入力モダリティを再構成することによって事前学習を行う。提案手法は,モダリティ固有の事前学習モデルを必要とせず,多様な入力構成を処理し,高い柔軟性を示す。
論文参考訳（メタデータ） (2025-05-20T22:24:36Z)
UFM: Unified Feature Matching Pre-training with Multi-Modal Image Assistants [12.756326600787629]
広帯域のモーダル画像にまたがる特徴マッチング問題に対処するために,統一特徴マッチング事前訓練モデル(UFM)を導入する。多様な特徴マッチング問題に対処できる微調整可能なマルチモーダルイメージアシスタント(MIA)トランスフォーマーを提案する。
論文参考訳（メタデータ） (2025-03-26T06:20:52Z)
MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文参考訳（メタデータ） (2024-08-27T13:47:31Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。 IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文参考訳（メタデータ） (2024-05-30T07:48:32Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文参考訳（メタデータ） (2022-12-02T11:40:40Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文参考訳（メタデータ） (2021-11-19T03:23:10Z)
Self-Supervised Representation Learning for RGB-D Salient Object Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。 RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文参考訳（メタデータ） (2021-01-29T09:16:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。