論文の概要: PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2303.08129v1
- Date: Tue, 14 Mar 2023 17:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:38:34.104246
- Title: PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection
- Title(参考訳): PiMAE:3Dオブジェクト検出のためのポイントクラウドと画像対話型マスク付きオートエンコーダ
- Authors: Anthony Chen, Kevin Zhang, Renrui Zhang, Zihan Wang, Yuheng Lu,
Yandong Guo, Shanghang Zhang
- Abstract要約: Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
- 参考スコア(独自算出の注目度): 26.03582038710992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoders learn strong visual representations and achieve
state-of-the-art results in several independent modalities, yet very few works
have addressed their capabilities in multi-modality settings. In this work, we
focus on point cloud and RGB image data, two modalities that are often
presented together in the real world, and explore their meaningful
interactions. To improve upon the cross-modal synergy in existing works, we
propose PiMAE, a self-supervised pre-training framework that promotes 3D and 2D
interaction through three aspects. Specifically, we first notice the importance
of masking strategies between the two sources and utilize a projection module
to complementarily align the mask and visible tokens of the two modalities.
Then, we utilize a well-crafted two-branch MAE pipeline with a novel shared
decoder to promote cross-modality interaction in the mask tokens. Finally, we
design a unique cross-modal reconstruction module to enhance representation
learning for both modalities. Through extensive experiments performed on
large-scale RGB-D scene understanding benchmarks (SUN RGB-D and ScannetV2), we
discover it is nontrivial to interactively learn point-image features, where we
greatly improve multiple 3D detectors, 2D detectors, and few-shot classifiers
by 2.9%, 6.7%, and 2.4%, respectively. Code is available at
https://github.com/BLVLab/PiMAE.
- Abstract(参考訳): Masked Autoencodersは、強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を達成する。
本研究では,実世界でしばしば提示される2つのモダリティであるポイントクラウドとrgb画像データに注目し,それらの有意義な相互作用を探求する。
既存の作業における相互相乗効果を改善するために,3つの側面を通じて3次元および2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
具体的には、まず2つのソース間のマスキング戦略の重要性に気付き、二つのモダリティのマスクと可視トークンを相補的に調整するプロジェクションモジュールを利用する。
次に,マスクトークンのクロスモダリティインタラクションを促進するために,新しい共有デコーダを用いた,手作りの2分岐型maeパイプラインを利用する。
最後に,両様相の表現学習を強化するために,一意なクロスモーダル再構築モジュールを設計した。
大規模rgb-dシーン理解ベンチマーク(sun rgb-d と scannetv2)で行った広範囲な実験を通じて,ポイントイメージの特徴をインタラクティブに学習することは非自明であり,複数の3d検出器,2d検出器,少数ショット分類器をそれぞれ2.9%,6.7%,2.4%改善した。
コードはhttps://github.com/BLVLab/PiMAEで入手できる。
関連論文リスト
- Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval [5.965791109321719]
2D画像と3Dポイントクラウドデータの相互ハッシュ化は、現実世界の検索システムにおいてますます懸念される。
画像とポイントクラウドデータ間の検索のために,コントラッシブマスク付きオートエンコーダを用いた自己教師型ハッシュ(CMAH)を提案する。
論文 参考訳(メタデータ) (2024-08-11T07:03:21Z) - M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for
2D image and video understanding [5.989397492717352]
M$3$3D ($underlineM$ulti-$underlineM$odal $underlineM$asked $underline3D$) はマルチモーダルマスキングオートエンコーダをベースとする。
我々は,Masked Image Modeling(MIM)とコントラスト学習という,自己教師型学習フレームワークを統合した。
実験の結果、M$3$3D は ScanNet, NYUv2, UCF-101, OR-AR における最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-09-26T23:52:09Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。