論文の概要: PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2303.08129v1
- Date: Tue, 14 Mar 2023 17:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:38:34.104246
- Title: PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection
- Title(参考訳): PiMAE:3Dオブジェクト検出のためのポイントクラウドと画像対話型マスク付きオートエンコーダ
- Authors: Anthony Chen, Kevin Zhang, Renrui Zhang, Zihan Wang, Yuheng Lu,
Yandong Guo, Shanghang Zhang
- Abstract要約: Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
- 参考スコア(独自算出の注目度): 26.03582038710992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoders learn strong visual representations and achieve
state-of-the-art results in several independent modalities, yet very few works
have addressed their capabilities in multi-modality settings. In this work, we
focus on point cloud and RGB image data, two modalities that are often
presented together in the real world, and explore their meaningful
interactions. To improve upon the cross-modal synergy in existing works, we
propose PiMAE, a self-supervised pre-training framework that promotes 3D and 2D
interaction through three aspects. Specifically, we first notice the importance
of masking strategies between the two sources and utilize a projection module
to complementarily align the mask and visible tokens of the two modalities.
Then, we utilize a well-crafted two-branch MAE pipeline with a novel shared
decoder to promote cross-modality interaction in the mask tokens. Finally, we
design a unique cross-modal reconstruction module to enhance representation
learning for both modalities. Through extensive experiments performed on
large-scale RGB-D scene understanding benchmarks (SUN RGB-D and ScannetV2), we
discover it is nontrivial to interactively learn point-image features, where we
greatly improve multiple 3D detectors, 2D detectors, and few-shot classifiers
by 2.9%, 6.7%, and 2.4%, respectively. Code is available at
https://github.com/BLVLab/PiMAE.
- Abstract(参考訳): Masked Autoencodersは、強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を達成する。
本研究では,実世界でしばしば提示される2つのモダリティであるポイントクラウドとrgb画像データに注目し,それらの有意義な相互作用を探求する。
既存の作業における相互相乗効果を改善するために,3つの側面を通じて3次元および2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
具体的には、まず2つのソース間のマスキング戦略の重要性に気付き、二つのモダリティのマスクと可視トークンを相補的に調整するプロジェクションモジュールを利用する。
次に,マスクトークンのクロスモダリティインタラクションを促進するために,新しい共有デコーダを用いた,手作りの2分岐型maeパイプラインを利用する。
最後に,両様相の表現学習を強化するために,一意なクロスモーダル再構築モジュールを設計した。
大規模rgb-dシーン理解ベンチマーク(sun rgb-d と scannetv2)で行った広範囲な実験を通じて,ポイントイメージの特徴をインタラクティブに学習することは非自明であり,複数の3d検出器,2d検出器,少数ショット分類器をそれぞれ2.9%,6.7%,2.4%改善した。
コードはhttps://github.com/BLVLab/PiMAEで入手できる。
関連論文リスト
- Bidirectional Propagation for Cross-Modal 3D Object Detection [53.89242981791315]
本稿では,2次元画像枝に逆向きに特徴を流すことができる反対の点対画素方向を提案する。
2Dおよび3Dストリームを共同最適化する場合、2Dイメージブランチからバックプロパゲーションされた勾配は、3Dバックボーンネットワークの表現能力を高めることができる。
アーキテクチャ設計に加えて,2次元イメージブランチのトレーニングのための新しい2次元補助タスクである局所座標マップの正規化も提案する。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression
Recognition [1.8604727699812171]
2D+3D顔表情認識(FER)は、照明の変化に効果的に対応し、バリエーションを呈することができる。
ほとんどのディープラーニングベースのアプローチは、単純な融合戦略を採用している。
2D+3D FERのためのマスク付き適応核融合ネットワーク (AFNet-M) を提案する。
論文 参考訳(メタデータ) (2022-05-24T04:56:55Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。