論文の概要: CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets
- arxiv url: http://arxiv.org/abs/2302.06148v1
- Date: Mon, 13 Feb 2023 07:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:25:13.395089
- Title: CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets
- Title(参考訳): CoMAE:小型RGB-Dデータセットを用いたシングルモデルハイブリッド事前学習
- Authors: Jiange Yang, Sheng Guo, Gangshan Wu, Limin Wang
- Abstract要約: 本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
- 参考スコア(独自算出の注目度): 50.6643933702394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current RGB-D scene recognition approaches often train two standalone
backbones for RGB and depth modalities with the same Places or ImageNet
pre-training. However, the pre-trained depth network is still biased by
RGB-based models which may result in a suboptimal solution. In this paper, we
present a single-model self-supervised hybrid pre-training framework for RGB
and depth modalities, termed as CoMAE. Our CoMAE presents a curriculum learning
strategy to unify the two popular self-supervised representation learning
algorithms: contrastive learning and masked image modeling. Specifically, we
first build a patch-level alignment task to pre-train a single encoder shared
by two modalities via cross-modal contrastive learning. Then, the pre-trained
contrastive encoder is passed to a multi-modal masked autoencoder to capture
the finer context features from a generative perspective. In addition, our
single-model design without requirement of fusion module is very flexible and
robust to generalize to unimodal scenario in both training and testing phases.
Extensive experiments on SUN RGB-D and NYUDv2 datasets demonstrate the
effectiveness of our CoMAE for RGB and depth representation learning. In
addition, our experiment results reveal that CoMAE is a data-efficient
representation learner. Although we only use the small-scale and unlabeled
training set for pre-training, our CoMAE pre-trained models are still
competitive to the state-of-the-art methods with extra large-scale and
supervised RGB dataset pre-training. Code will be released at
https://github.com/MCG-NJU/CoMAE.
- Abstract(参考訳): 現在のRGB-Dシーン認識アプローチでは、RGBとdeepModalitiesの2つのスタンドアロンバックボーンをトレーニングすることが多い。
しかし、事前訓練された深度ネットワークは依然としてRGBベースのモデルに偏りがあり、それによって準最適解が得られる。
本稿では,rgbと深さモダリティのための単一モデル自己教師付きハイブリッド事前学習フレームワークcomaeを提案する。
コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提案する。
具体的には,まずパッチレベルのアライメントタスクを構築し,クロスモーダルコントラスト学習を通じて2つのモダリティで共有される1つのエンコーダを事前学習する。
そして、事前学習されたコントラストエンコーダをマルチモーダルマスクオートエンコーダに渡して、生成的観点からより細かいコンテキスト特徴をキャプチャする。
さらに,融合モジュールを必要としない単一モデル設計は,訓練段階と試験段階の両方において,一様シナリオに一般化する上で非常に柔軟かつ堅牢である。
SUN RGB-DおよびNYUDv2データセットの大規模な実験により、RGBと深度表現学習におけるCoMAEの有効性が示された。
さらに,実験結果から,CoMAEはデータ効率のよい表現学習者であることが判明した。
トレーニングには小規模でラベルなしのトレーニングセットしか使用していませんが、当社のCoMAE事前トレーニングモデルは、大規模で教師付きRGBデータセットを事前トレーニング可能な最先端の手法と競合しています。
コードはhttps://github.com/MCG-NJU/CoMAEでリリースされる。
関連論文リスト
- Consistent Multimodal Generation via A Unified GAN Framework [36.08519541540843]
一つの生成モデルを用いて,RGB,深さ,表面正規化などのマルチモーダル画像を生成する方法について検討する。
我々のソリューションはStyleGAN3アーキテクチャ上に構築されており、合成ネットワークの最後の層に共有バックボーンとモダリティ固有の分岐がある。
スタンフォード2D3Dデータセットの実験では、RGB、深さ、正常な画像の現実的で一貫した生成を実証する。
論文 参考訳(メタデータ) (2023-07-04T01:33:20Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Self-Supervised Modality-Aware Multiple Granularity Pre-Training for
RGB-Infrared Person Re-Identification [9.624510941236837]
Modality-Aware Multiple Granularity Learning (MMGL)は、ImageNetの事前学習に代わる自己教師付き事前学習である。
MMGLはImageNetの事前トレーニングよりも高速なトレーニング速度(数時間で収束)とデータ効率(5%のデータサイズ)で、より良い表現(+6.47% Rank-1)を学習する。
結果は、既存のさまざまなモデル、損失をうまく一般化し、データセット間で有望な転送可能性を持つことを示唆している。
論文 参考訳(メタデータ) (2021-12-12T04:40:33Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。