論文の概要: Multi-View Representation is What You Need for Point-Cloud Pre-Training
- arxiv url: http://arxiv.org/abs/2306.02558v2
- Date: Mon, 16 Oct 2023 00:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 04:49:23.925298
- Title: Multi-View Representation is What You Need for Point-Cloud Pre-Training
- Title(参考訳): ポイントクラウド事前トレーニングに必要なマルチビュー表現
- Authors: Siming Yan, Chen Song, Youkang Kong, Qixing Huang
- Abstract要約: 本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
- 参考スコア(独自算出の注目度): 24.639227390167992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A promising direction for pre-training 3D point clouds is to leverage the
massive amount of data in 2D, whereas the domain gap between 2D and 3D creates
a fundamental challenge. This paper proposes a novel approach to point-cloud
pre-training that learns 3D representations by leveraging pre-trained 2D
networks. Different from the popular practice of predicting 2D features first
and then obtaining 3D features through dimensionality lifting, our approach
directly uses a 3D network for feature extraction. We train the 3D feature
extraction network with the help of the novel 2D knowledge transfer loss, which
enforces the 2D projections of the 3D feature to be consistent with the output
of pre-trained 2D networks. To prevent the feature from discarding 3D signals,
we introduce the multi-view consistency loss that additionally encourages the
projected 2D feature representations to capture pixel-wise correspondences
across different views. Such correspondences induce 3D geometry and effectively
retain 3D features in the projected 2D features. Experimental results
demonstrate that our pre-trained model can be successfully transferred to
various downstream tasks, including 3D shape classification, part segmentation,
3D object detection, and semantic segmentation, achieving state-of-the-art
performance.
- Abstract(参考訳): 3dポイントクラウドを事前トレーニングする有望な方向は、2dの膨大なデータを活用することだが、2dと3dの間のドメインギャップは根本的な課題を生み出す。
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
まず2次元の特徴を予測し、次に次元を持ち上げることで3次元特徴を得るという一般的な慣行とは異なり、本手法は特徴抽出に3次元ネットワークを直接使用する。
本研究では,新しい2次元知識伝達損失の助けを借りて3次元特徴抽出ネットワークを訓練し,事前学習された2次元ネットワークの出力と整合する3次元特徴の2次元投影を強制する。
この特徴が3D信号を捨てるのを防ぐために,複数のビューにまたがる画素ワイド対応を捉えるために,投影された2D特徴表現をさらに促進する多視点整合損失を導入する。
このような対応は3次元幾何学を誘導し、投影された2次元特徴の3次元特徴を効果的に保持する。
実験結果から,3次元形状分類,部分分割,3次元物体検出,意味的セグメンテーションなど,各種下流タスクへの事前学習モデルの導入が成功し,最先端性能が達成できた。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。