論文の概要: PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation
- arxiv url: http://arxiv.org/abs/2212.14197v4
- Date: Tue, 19 Dec 2023 05:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 03:16:43.401289
- Title: PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation
- Title(参考訳): pointvst: view-specific point-to-image translationによる3d point cloudsの自己教師付き事前学習
- Authors: Qijian Zhang, Junhui Hou
- Abstract要約: 本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
- 参考スコア(独自算出の注目度): 64.858505571083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past few years have witnessed the great success and prevalence of
self-supervised representation learning within the language and 2D vision
communities. However, such advancements have not been fully migrated to the
field of 3D point cloud learning. Different from existing pre-training
paradigms designed for deep point cloud feature extractors that fall into the
scope of generative modeling or contrastive learning, this paper proposes a
translative pre-training framework, namely PointVST, driven by a novel
self-supervised pretext task of cross-modal translation from 3D point clouds to
their corresponding diverse forms of 2D rendered images. More specifically, we
begin with deducing view-conditioned point-wise embeddings through the
insertion of the viewpoint indicator, and then adaptively aggregate a
view-specific global codeword, which can be further fed into subsequent 2D
convolutional translation heads for image generation. Extensive experimental
evaluations on various downstream task scenarios demonstrate that our PointVST
shows consistent and prominent performance superiority over current
state-of-the-art approaches as well as satisfactory domain transfer capability.
Our code will be publicly available at https://github.com/keeganhk/PointVST.
- Abstract(参考訳): 過去数年間、言語と2Dビジョンコミュニティにおける自己指導型表現学習の成功と普及を目撃してきた。
しかし、このような進歩は3Dポイントのクラウド学習分野に完全に移行していない。
本稿では,3次元の点群から3次元の点群へのクロスモーダル変換という,新たな自己教師付きプレテキストタスクを駆使して,生成的モデリングやコントラスト学習の領域に該当する,深部点群の特徴抽出器を設計した既存の事前学習パラダイムと異なり,翻訳事前学習フレームワークであるPointVSTを提案する。
より具体的には、視点インジケータを挿入することで視点条件付きポイントワイズ埋め込みを導出し、その後に画像生成のための2次元畳み込み変換ヘッドにさらに供給されるビュー固有のグローバルコードワードを適応的に集約することから始める。
様々なダウンストリームタスクシナリオに対する大規模な実験的評価により、PointVSTは、現在の最先端アプローチよりも一貫性があり、顕著なパフォーマンス上の優位性を示し、良好なドメイン転送能力を示します。
私たちのコードはhttps://github.com/keeganhk/PointVSTで公開されます。
関連論文リスト
- HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Explore In-Context Learning for 3D Point Cloud Understanding [71.20912026561484]
我々は,特に3Dポイントクラウドにおけるコンテキスト内学習のために設計された,ポイント・イン・コンテキストという新しいフレームワークを紹介した。
一般点サンプリング演算子とタンデムで協調して動作するように慎重に設計したJoint Smplingモジュールを提案する。
提案手法の汎用性と適応性を検証するため,幅広いタスクを扱うための広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-14T17:53:21Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。