論文の概要: Multi-View Vision-to-Geometry Knowledge Transfer for 3D Point Cloud
Shape Analysis
- arxiv url: http://arxiv.org/abs/2207.03128v1
- Date: Thu, 7 Jul 2022 07:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:06:46.661708
- Title: Multi-View Vision-to-Geometry Knowledge Transfer for 3D Point Cloud
Shape Analysis
- Title(参考訳): 3次元雲形状解析のための多視点ビジョンからジオメトリへの知識伝達
- Authors: Qijian Zhang, Junhui Hou, Yue Qian
- Abstract要約: 2次元多視点画像と3次元点雲は、視覚的外観と幾何学的構造の異なる側面から形状情報を反映する。
本稿では,2次元画像の識別的視覚記述子を3次元点雲の幾何学的記述子に蒸留するクロスモーダルな知識伝達フレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.38462937452363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As two fundamental representation modalities of 3D objects, 2D multi-view
images and 3D point clouds reflect shape information from different aspects of
visual appearances and geometric structures. Unlike deep learning-based 2D
multi-view image modeling, which demonstrates leading performances in various
3D shape analysis tasks, 3D point cloud-based geometric modeling still suffers
from insufficient learning capacity. In this paper, we innovatively construct a
unified cross-modal knowledge transfer framework, which distills discriminative
visual descriptors of 2D images into geometric descriptors of 3D point clouds.
Technically, under a classic teacher-student learning paradigm, we propose
multi-view vision-to-geometry distillation, consisting of a deep 2D image
encoder as teacher and a deep 3D point cloud encoder as student. To achieve
heterogeneous feature alignment, we further propose visibility-aware feature
projection, through which per-point embeddings can be aggregated into
multi-view geometric descriptors. Extensive experiments on 3D shape
classification, part segmentation, and unsupervised learning validate the
superiority of our method. We will make the code and data publicly available.
- Abstract(参考訳): 3次元オブジェクトの2つの基本的な表現モダリティとして、2次元多視点画像と3次元点雲は、視覚的外観と幾何学的構造の異なる側面から形状情報を反映する。
ディープラーニングベースの2次元マルチビュー画像モデリングとは異なり、3dポイントクラウドベースの幾何モデリングは依然として学習能力の不足に苦しんでいる。
本稿では,2次元画像の識別的視覚記述子を3次元点雲の幾何学的記述子に蒸留するクロスモーダルな知識伝達フレームワークを革新的に構築する。
技術的には、古典的な教師-学生の学習パラダイムの下で、教師としての深層2次元イメージエンコーダと学生としての深部3次元ポイントクラウドエンコーダからなる多視点視覚-幾何学的蒸留を提案する。
不均一な特徴アライメントを実現するために、多視点幾何学的記述子にポイントごとの埋め込みを集約できる可視性を考慮した特徴プロジェクションを提案する。
3次元形状分類,部分分割,教師なし学習に関する広範な実験により,本手法の有用性が検証された。
コードとデータを公開します。
関連論文リスト
- Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。