Fugu-MT 論文翻訳(概要): PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

論文の概要: PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

arxiv url: http://arxiv.org/abs/2303.08129v1
Date: Tue, 14 Mar 2023 17:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 13:38:34.104246
Title: PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection
Title（参考訳）: PiMAE:3Dオブジェクト検出のためのポイントクラウドと画像対話型マスク付きオートエンコーダ
Authors: Anthony Chen, Kevin Zhang, Renrui Zhang, Zihan Wang, Yuheng Lu, Yandong Guo, Shanghang Zhang
Abstract要約: Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
参考スコア（独自算出の注目度）: 26.03582038710992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked Autoencoders learn strong visual representations and achieve state-of-the-art results in several independent modalities, yet very few works have addressed their capabilities in multi-modality settings. In this work, we focus on point cloud and RGB image data, two modalities that are often presented together in the real world, and explore their meaningful interactions. To improve upon the cross-modal synergy in existing works, we propose PiMAE, a self-supervised pre-training framework that promotes 3D and 2D interaction through three aspects. Specifically, we first notice the importance of masking strategies between the two sources and utilize a projection module to complementarily align the mask and visible tokens of the two modalities. Then, we utilize a well-crafted two-branch MAE pipeline with a novel shared decoder to promote cross-modality interaction in the mask tokens. Finally, we design a unique cross-modal reconstruction module to enhance representation learning for both modalities. Through extensive experiments performed on large-scale RGB-D scene understanding benchmarks (SUN RGB-D and ScannetV2), we discover it is nontrivial to interactively learn point-image features, where we greatly improve multiple 3D detectors, 2D detectors, and few-shot classifiers by 2.9%, 6.7%, and 2.4%, respectively. Code is available at https://github.com/BLVLab/PiMAE.
Abstract（参考訳）: Masked Autoencodersは、強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を達成する。本研究では,実世界でしばしば提示される2つのモダリティであるポイントクラウドとrgb画像データに注目し,それらの有意義な相互作用を探求する。既存の作業における相互相乗効果を改善するために,3つの側面を通じて3次元および2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。具体的には、まず2つのソース間のマスキング戦略の重要性に気付き、二つのモダリティのマスクと可視トークンを相補的に調整するプロジェクションモジュールを利用する。次に,マスクトークンのクロスモダリティインタラクションを促進するために,新しい共有デコーダを用いた,手作りの2分岐型maeパイプラインを利用する。最後に,両様相の表現学習を強化するために,一意なクロスモーダル再構築モジュールを設計した。大規模rgb-dシーン理解ベンチマーク(sun rgb-d と scannetv2)で行った広範囲な実験を通じて,ポイントイメージの特徴をインタラクティブに学習することは非自明であり,複数の3d検出器,2d検出器,少数ショット分類器をそれぞれ2.9%,6.7%,2.4%改善した。コードはhttps://github.com/BLVLab/PiMAEで入手できる。

関連論文リスト

Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval [5.965791109321719]
2D画像と3Dポイントクラウドデータの相互ハッシュ化は、現実世界の検索システムにおいてますます懸念される。画像とポイントクラウドデータ間の検索のために,コントラッシブマスク付きオートエンコーダを用いた自己教師型ハッシュ(CMAH)を提案する。
論文参考訳（メタデータ） (2024-08-11T07:03:21Z)
M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding [5.989397492717352]
M$3$3D ($underlineM$ulti-$underlineM$odal $underlineM$asked $underline3D$) はマルチモーダルマスキングオートエンコーダをベースとする。我々は,Masked Image Modeling(MIM)とコントラスト学習という,自己教師型学習フレームワークを統合した。実験の結果、M$3$3D は ScanNet, NYUv2, UCF-101, OR-AR における最先端のアプローチよりも優れていた。
論文参考訳（メタデータ） (2023-09-26T23:52:09Z)
UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文参考訳（メタデータ） (2023-08-21T02:13:40Z)
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文参考訳（メタデータ） (2023-02-27T17:56:18Z)
Unleash the Potential of Image Branch for Cross-modal 3D Object Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文参考訳（メタデータ） (2023-01-22T08:26:58Z)
PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文参考訳（メタデータ） (2022-07-07T07:23:20Z)
DetMatch: Two Teachers are Better Than One for Joint 2D and 3D Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文参考訳（メタデータ） (2022-03-17T17:58:00Z)
Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文参考訳（メタデータ） (2020-12-22T22:58:29Z)
Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。アーキテクチャ全体が2段階の融合を促進する。 KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文参考訳（メタデータ） (2020-08-16T11:01:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。