論文の概要: CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning
- arxiv url: http://arxiv.org/abs/2412.03059v1
- Date: Wed, 04 Dec 2024 06:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:18.522058
- Title: CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning
- Title(参考訳): CLAP:曲線サンプリングとプロトタイプ学習による核融合3次元知覚のための教師なし3次元表現学習
- Authors: Runjian Chen, Hang Zhang, Avinash Ravichandran, Wenqi Shao, Alex Wong, Ping Luo,
- Abstract要約: 曲率sampLing と swapping Prototype assignment prediction の略である CLAP を提案する。
CLAPは従来のSOTA 3D事前学習法に比べて300%以上の性能向上を実現している。
- 参考スコア(独自算出の注目度): 42.88303582495711
- License:
- Abstract: Unsupervised 3D representation learning via masked-and-reconstruction with differentiable rendering is promising to reduce the labeling burden for fusion 3D perception. However, previous literature conduct pre-training for different modalities separately because of the hight GPU memory consumption. Consequently, the interaction between the two modalities (images and point clouds) is neglected during pre-training. In this paper, we explore joint unsupervised pre-training for fusion 3D perception via differentiable rendering and propose CLAP, short for Curvature sampLing and swApping Prototype assignment prediction. The contributions are three-fold. 1) To overcome the GPU memory consumption problem, we propose Curvature Sampling to sample the more informative points/pixels for pre-training. 2) We propose to use learnable prototypes to represent parts of the scenes in a common feature space and bring the idea of swapping prototype assignment prediction to learn the interaction between the two modalities. 3) To further optimize learnable prototypes, we propose an Expectation-Maximization training scheme to maximize the similarity between embeddings and prototypes, followed by a Gram Matrix Regularization Loss to avoid collapse. Experiment results on NuScenes show that CLAP achieves 300% more performance gain as compared to previous SOTA 3D pre-training method via differentiable rendering. Codes and models will be released.
- Abstract(参考訳): 異なるレンダリングによるマスク・アンド・リコンストラクションによる教師なし3次元表現学習は、融合3次元知覚のラベル付け負担を軽減することを約束する。
しかし、従来の文献ではGPUのメモリ消費が高いため、異なるモダリティを個別に事前学習していた。
その結果、2つのモード(イメージと点雲)間の相互作用は事前学習中に無視される。
本稿では,差分レンダリングによる融合3次元知覚のための共同教師なし事前学習について検討し,Curvature sampLing と swapping Prototype assignment prediction の略である CLAP を提案する。
コントリビューションは3倍です。
1)GPUメモリ消費問題を克服するために,事前学習のためのより情報性の高い点/画素をサンプリングする曲線サンプリングを提案する。
2)共通の特徴空間におけるシーンの一部を表現するために学習可能なプロトタイプを提案し,プロトタイプの割り当て予測を交換して2つのモード間の相互作用を学習するアイデアを提案する。
3) 学習可能なプロトタイプをさらに最適化するために, 組込みとプロトタイプの類似性を最大化する期待最大化学習手法を提案する。
NuScenes 実験の結果,CLAP は従来の SOTA 3D 事前学習法と比較して300% 以上の性能向上を達成した。
コードとモデルがリリースされる。
関連論文リスト
- Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - Personalized 3D Human Pose and Shape Refinement [19.082329060985455]
回帰に基づく手法は3次元人間のポーズと形状推定の分野を支配してきた。
本稿では,初期人間のモデル推定値と対応する画像との密接な対応性を構築することを提案する。
提案手法は画像モデルアライメントの改善だけでなく,3次元精度の向上にも寄与する。
論文 参考訳(メタデータ) (2024-03-18T10:13:53Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - COARSE3D: Class-Prototypes for Contrastive Learning in Weakly-Supervised
3D Point Cloud Segmentation [16.072116380353393]
COARSE3Dは、3Dセグメンテーションのための新しいアーキテクチャに依存しない対照的な学習戦略である。
我々は、クラスワイドなグローバルデータセット情報を効率的にキャプチャするプロトタイプメモリバンクを、キーとして機能する少数のプロトタイプに活用する。
実験では、3つの挑戦的な現実世界の屋外データセットのベースラインを上回り、0.001%のアノテーションで作業します。
論文 参考訳(メタデータ) (2022-10-04T17:54:53Z) - A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision [0.0]
3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。
コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:15Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Semi-Supervised Adversarial Recognition of Refined Window Structures for
Inverse Procedural Fa\c{c}ade Modeling [17.62526990262815]
本稿では,逆手続きモデルに組み込んだ半教師付き対角認識戦略を提案する。
既存の3Dモデリングソフトウェアの内部に、単純なプロシージャエンジンが構築され、きめ細かい窓のジオメトリが生成される。
公開されているファサード画像データセットを用いた実験により、提案したトレーニング戦略により、分類精度が約10%向上できることが判明した。
論文 参考訳(メタデータ) (2022-01-22T06:34:48Z) - Using Adaptive Gradient for Texture Learning in Single-View 3D
Reconstruction [0.0]
3次元モデル再構築のための学習ベースのアプローチは、現代の応用によって注目を集めている。
本稿では,サンプリング画像のばらつきに基づいて予測座標の勾配を最適化し,新しいサンプリングアルゴリズムを提案する。
また,frechetインセプション距離(fid)を用いて学習における損失関数を形成し,レンダリング画像と入力画像とのギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-04-29T07:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。