論文の概要: Learning from Multi-View Representation for Point-Cloud Pre-Training
- arxiv url: http://arxiv.org/abs/2306.02558v1
- Date: Mon, 5 Jun 2023 03:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:09:41.524052
- Title: Learning from Multi-View Representation for Point-Cloud Pre-Training
- Title(参考訳): ポイントクラウド事前学習のためのマルチビュー表現からの学習
- Authors: Siming Yan, Chen Song, Youkang Kong, Qixing Huang
- Abstract要約: 3Dポイントクラウドの事前トレーニングにおける重要な問題は、巨大な2Dデータを活用することだ。
本稿では,事前学習した2次元ネットワークを活用して3次元表現を学習できるポイントクラウド事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 28.262436830189838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A critical problem in the pre-training of 3D point clouds is leveraging
massive 2D data. A fundamental challenge is to address the 2D-3D domain gap.
This paper proposes a novel approach to point-cloud pre-training that enables
learning 3D representations by leveraging pre-trained 2D-based networks. In
particular, it avoids overfitting to 2D representations and potentially
discarding critical 3D features for 3D recognition tasks. The key to our
approach is a novel multi-view representation, which learns a shared 3D feature
volume consistent with deep features extracted from multiple 2D camera views.
The 2D deep features are regularized using pre-trained 2D networks through the
2D knowledge transfer loss. To prevent the resulting 3D feature representations
from discarding 3D signals, we introduce the multi-view consistency loss that
forces the projected 2D feature representations to capture pixel-wise
correspondences across different views. Such correspondences induce 3D geometry
and effectively retain 3D features in the projected 2D features. Experimental
results demonstrate that our pre-trained model can be successfully transferred
to various downstream tasks, including 3D detection and semantic segmentation,
and achieve state-of-the-art performance.
- Abstract(参考訳): 3Dポイントクラウドの事前トレーニングにおける重要な問題は、巨大な2Dデータを活用することだ。
根本的な課題は、2D-3Dドメインギャップに対処することだ。
本稿では,事前学習した2次元ネットワークを活用して3次元表現を学習できるポイントクラウド事前学習手法を提案する。
特に、2D表現への過度な適合を回避し、3D認識タスクの重要な3D機能を捨てる可能性がある。
提案手法の鍵となるのは,複数の2次元カメラビューから抽出した深い特徴と一致した共有3次元特徴量を学習する,新しいマルチビュー表現である。
2Dの深い特徴は、2Dの知識伝達損失を通じて事前訓練された2Dネットワークを用いて正規化される。
得られた3D特徴表現が3D信号を捨てるのを防ぐために、投影された2D特徴表現に異なるビューにわたる画素ワイド対応をキャプチャさせる多視点整合損失を導入する。
このような対応は3次元幾何学を誘導し、投影された2次元特徴の3次元特徴を効果的に保持する。
実験の結果,事前学習したモデルは,3次元検出やセマンティックセグメンテーションなど,様々な下流タスクにうまく移行でき,最先端の性能を達成できることがわかった。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。