論文の概要: Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors
- arxiv url: http://arxiv.org/abs/2302.14746v1
- Date: Tue, 28 Feb 2023 16:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:21:11.944321
- Title: Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors
- Title(参考訳): mask3d:マスク3d事前学習による2次元視覚トランスフォーマー
- Authors: Ji Hou, Xiaoliang Dai, Zijian He, Angela Dai, Matthias Nie{\ss}ner
- Abstract要約: 本研究では,既存の大規模RGB-Dデータを活用するMask3Dを提案する。
我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを実証した。
- 参考スコア(独自算出の注目度): 29.419069066603438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current popular backbones in computer vision, such as Vision Transformers
(ViT) and ResNets are trained to perceive the world from 2D images. However, to
more effectively understand 3D structural priors in 2D backbones, we propose
Mask3D to leverage existing large-scale RGB-D data in a self-supervised
pre-training to embed these 3D priors into 2D learned feature representations.
In contrast to traditional 3D contrastive learning paradigms requiring 3D
reconstructions or multi-view correspondences, our approach is simple: we
formulate a pre-text reconstruction task by masking RGB and depth patches in
individual RGB-D frames. We demonstrate the Mask3D is particularly effective in
embedding 3D priors into the powerful 2D ViT backbone, enabling improved
representation learning for various scene understanding tasks, such as semantic
segmentation, instance segmentation and object detection. Experiments show that
Mask3D notably outperforms existing self-supervised 3D pre-training approaches
on ScanNet, NYUv2, and Cityscapes image understanding tasks, with an
improvement of +6.5% mIoU against the state-of-the-art Pri3D on ScanNet image
semantic segmentation.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)やResNetsのようなコンピュータビジョンにおける現在の一般的なバックボーンは、2D画像から世界を認識するために訓練されている。
しかし,2次元バックボーンにおける3次元構造的先行性をより効果的に理解するために,既存の大規模RGB-Dデータを活用するMask3Dを提案する。
3次元再構成やマルチビュー対応を必要とする従来の3Dコントラスト学習パラダイムとは対照的に,本手法はRGBと深度パッチを個別のRGB-Dフレームでマスキングすることで,事前テキスト再構築タスクを定式化する。
我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを示し,セマンティックセグメンテーション,インスタンスセグメンテーション,オブジェクト検出など,様々な場面理解タスクにおける表現学習の改善を可能にする。
実験の結果、Mask3DはScanNet、NYUv2、Cityscapesの画像理解タスクにおいて既存の教師付き3D事前訓練アプローチよりも優れており、ScanNetイメージセマンティックセグメンテーションにおける最先端のPri3Dに対して+6.5% mIoUが改善されている。
関連論文リスト
- MixCon3D: Synergizing Multi-View and Cross-Modal Contrastive Learning
for Enhancing 3D Representation [55.393631071201085]
コントラスト学習を強化するために,2次元画像と3次元点雲の相補的な情報を組み合わせたMixCon3Dを導入する。
また、3Dコントラッシブラーニングパラダイムのための様々なトレーニングレシピの徹底的な研究の先駆者となった。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [24.639227390167992]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [12.632287118592178]
本稿では,限られたRGB-D画像からの幾何学的完備化,色化,意味マッピングを両立させるエンドツーエンドのトレーニング可能なソリューションを提案する。
提案手法は,2つの大規模ベンチマークデータセット上でのセマンティックシーン再構成の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Pri3D: Can 3D Priors Help 2D Representation Learning? [37.35721274841419]
近年の3次元知覚の進歩は、3次元空間の幾何学的構造を理解する上で顕著な進歩を示した。
このような幾何学的理解の進歩に触発されて,画像に基づく知覚を幾何学的制約の下で学習した表現で表現することを目指す。
マルチビューRGB-Dデータに基づくネットワークプリトレーニングのためのビュー不変なジオメトリ認識表現の学習手法を提案する。
論文 参考訳(メタデータ) (2021-04-22T17:59:30Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Virtual Multi-view Fusion for 3D Semantic Segmentation [11.259694096475766]
仮想ビューにより,従来のマルチビュー手法よりも2次元セマンティックセグメンテーションネットワークを効果的に学習できることを示す。
画素ごとの2次元予測を3次元面に集約すると,仮想多視点融合法により,より優れた3次元セマンティックセマンティックセマンティクス結果が得られる。
論文 参考訳(メタデータ) (2020-07-26T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。