Fugu-MT 論文翻訳(概要): Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors

論文の概要: Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors

arxiv url: http://arxiv.org/abs/2302.14746v1
Date: Tue, 28 Feb 2023 16:45:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-01 15:21:11.944321
Title: Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors
Title（参考訳）: mask3d:マスク3d事前学習による2次元視覚トランスフォーマー
Authors: Ji Hou, Xiaoliang Dai, Zijian He, Angela Dai, Matthias Nie{\ss}ner
Abstract要約: 本研究では,既存の大規模RGB-Dデータを活用するMask3Dを提案する。我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを実証した。
参考スコア（独自算出の注目度）: 29.419069066603438
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current popular backbones in computer vision, such as Vision Transformers (ViT) and ResNets are trained to perceive the world from 2D images. However, to more effectively understand 3D structural priors in 2D backbones, we propose Mask3D to leverage existing large-scale RGB-D data in a self-supervised pre-training to embed these 3D priors into 2D learned feature representations. In contrast to traditional 3D contrastive learning paradigms requiring 3D reconstructions or multi-view correspondences, our approach is simple: we formulate a pre-text reconstruction task by masking RGB and depth patches in individual RGB-D frames. We demonstrate the Mask3D is particularly effective in embedding 3D priors into the powerful 2D ViT backbone, enabling improved representation learning for various scene understanding tasks, such as semantic segmentation, instance segmentation and object detection. Experiments show that Mask3D notably outperforms existing self-supervised 3D pre-training approaches on ScanNet, NYUv2, and Cityscapes image understanding tasks, with an improvement of +6.5% mIoU against the state-of-the-art Pri3D on ScanNet image semantic segmentation.
Abstract（参考訳）: ビジョントランスフォーマー(ViT)やResNetsのようなコンピュータビジョンにおける現在の一般的なバックボーンは、2D画像から世界を認識するために訓練されている。しかし,2次元バックボーンにおける3次元構造的先行性をより効果的に理解するために,既存の大規模RGB-Dデータを活用するMask3Dを提案する。 3次元再構成やマルチビュー対応を必要とする従来の3Dコントラスト学習パラダイムとは対照的に,本手法はRGBと深度パッチを個別のRGB-Dフレームでマスキングすることで,事前テキスト再構築タスクを定式化する。我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを示し,セマンティックセグメンテーション,インスタンスセグメンテーション,オブジェクト検出など,様々な場面理解タスクにおける表現学習の改善を可能にする。実験の結果、Mask3DはScanNet、NYUv2、Cityscapesの画像理解タスクにおいて既存の教師付き3D事前訓練アプローチよりも優れており、ScanNetイメージセマンティックセグメンテーションにおける最先端のPri3Dに対して+6.5% mIoUが改善されている。

関連論文リスト

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文参考訳（メタデータ） (2024-11-22T11:35:42Z)
MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文参考訳（メタデータ） (2024-09-21T05:12:13Z)
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文参考訳（メタデータ） (2023-06-30T17:59:08Z)
SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文参考訳（メタデータ） (2023-02-07T17:47:52Z)
Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。 I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文参考訳（メタデータ） (2022-12-13T17:59:20Z)
MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文参考訳（メタデータ） (2022-08-18T00:48:15Z)
Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文参考訳（メタデータ） (2021-06-14T17:59:59Z)
Pri3D: Can 3D Priors Help 2D Representation Learning? [37.35721274841419]
近年の3次元知覚の進歩は、3次元空間の幾何学的構造を理解する上で顕著な進歩を示した。このような幾何学的理解の進歩に触発されて,画像に基づく知覚を幾何学的制約の下で学習した表現で表現することを目指す。マルチビューRGB-Dデータに基づくネットワークプリトレーニングのためのビュー不変なジオメトリ認識表現の学習手法を提案する。
論文参考訳（メタデータ） (2021-04-22T17:59:30Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。