Fugu-MT 論文翻訳(概要): CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

論文の概要: CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

arxiv url: http://arxiv.org/abs/2412.03059v1
Date: Wed, 04 Dec 2024 06:26:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.568304
Title: CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning
Title（参考訳）: CLAP:曲線サンプリングとプロトタイプ学習による核融合3次元知覚のための教師なし3次元表現学習
Authors: Runjian Chen, Hang Zhang, Avinash Ravichandran, Wenqi Shao, Alex Wong, Ping Luo,
Abstract要約: 曲率sampLing と swapping Prototype assignment prediction の略である CLAP を提案する。 CLAPは従来のSOTA 3D事前学習法に比べて300%以上の性能向上を実現している。
参考スコア（独自算出の注目度）: 42.88303582495711
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised 3D representation learning via masked-and-reconstruction with differentiable rendering is promising to reduce the labeling burden for fusion 3D perception. However, previous literature conduct pre-training for different modalities separately because of the hight GPU memory consumption. Consequently, the interaction between the two modalities (images and point clouds) is neglected during pre-training. In this paper, we explore joint unsupervised pre-training for fusion 3D perception via differentiable rendering and propose CLAP, short for Curvature sampLing and swApping Prototype assignment prediction. The contributions are three-fold. 1) To overcome the GPU memory consumption problem, we propose Curvature Sampling to sample the more informative points/pixels for pre-training. 2) We propose to use learnable prototypes to represent parts of the scenes in a common feature space and bring the idea of swapping prototype assignment prediction to learn the interaction between the two modalities. 3) To further optimize learnable prototypes, we propose an Expectation-Maximization training scheme to maximize the similarity between embeddings and prototypes, followed by a Gram Matrix Regularization Loss to avoid collapse. Experiment results on NuScenes show that CLAP achieves 300% more performance gain as compared to previous SOTA 3D pre-training method via differentiable rendering. Codes and models will be released.
Abstract（参考訳）: 異なるレンダリングによるマスク・アンド・リコンストラクションによる教師なし3次元表現学習は、融合3次元知覚のラベル付け負担を軽減することを約束する。しかし、従来の文献ではGPUのメモリ消費が高いため、異なるモダリティを個別に事前学習していた。その結果、2つのモード(イメージと点雲)間の相互作用は事前学習中に無視される。本稿では,差分レンダリングによる融合3次元知覚のための共同教師なし事前学習について検討し,Curvature sampLing と swapping Prototype assignment prediction の略である CLAP を提案する。コントリビューションは3倍です。 1)GPUメモリ消費問題を克服するために,事前学習のためのより情報性の高い点/画素をサンプリングする曲線サンプリングを提案する。 2)共通の特徴空間におけるシーンの一部を表現するために学習可能なプロトタイプを提案し,プロトタイプの割り当て予測を交換して2つのモード間の相互作用を学習するアイデアを提案する。 3) 学習可能なプロトタイプをさらに最適化するために, 組込みとプロトタイプの類似性を最大化する期待最大化学習手法を提案する。 NuScenes 実験の結果,CLAP は従来の SOTA 3D 事前学習法と比較して300% 以上の性能向上を達成した。コードとモデルがリリースされる。

関連論文リスト

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。 UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文参考訳（メタデータ） (2025-06-11T17:23:21Z)
Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification [59.68055837500357]
本稿では,3次元形状のきめ細かい分類のためのプロトタイプベースフレームワークProto-FG3Dを提案する。 Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリ表現学習を確立する。 Proto-FG3Dは、精度、透明な予測、そして視覚化によるアドホックな解釈可能性において最先端の手法を超越している。
論文参考訳（メタデータ） (2025-05-23T09:31:02Z)
CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting [88.24743308058441]
3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
論文参考訳（メタデータ） (2024-12-26T09:54:25Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning [15.559369116540097]
ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。本稿では,3Dガウススプラッティング(3DGS)をポイントクラウドの自己教師型学習に初めて統合したGS-PTを提案する。我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
論文参考訳（メタデータ） (2024-09-08T03:46:47Z)
Personalized 3D Human Pose and Shape Refinement [19.082329060985455]
回帰に基づく手法は3次元人間のポーズと形状推定の分野を支配してきた。本稿では,初期人間のモデル推定値と対応する画像との密接な対応性を構築することを提案する。提案手法は画像モデルアライメントの改善だけでなく,3次元精度の向上にも寄与する。
論文参考訳（メタデータ） (2024-03-18T10:13:53Z)
PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。 PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。 ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-03-11T03:28:20Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-18T17:59:57Z)
CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文参考訳（メタデータ） (2023-03-08T17:30:58Z)
ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文参考訳（メタデータ） (2022-12-10T01:34:47Z)
A Closer Look at Invariances in Self-supervised Pre-training for 3D Vision [0.0]
3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
論文参考訳（メタデータ） (2022-07-11T16:44:15Z)
On Triangulation as a Form of Self-Supervision for 3D Human Pose Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文参考訳（メタデータ） (2022-03-29T19:11:54Z)
Using Adaptive Gradient for Texture Learning in Single-View 3D Reconstruction [0.0]
3次元モデル再構築のための学習ベースのアプローチは、現代の応用によって注目を集めている。本稿では,サンプリング画像のばらつきに基づいて予測座標の勾配を最適化し,新しいサンプリングアルゴリズムを提案する。また,frechetインセプション距離(fid)を用いて学習における損失関数を形成し,レンダリング画像と入力画像とのギャップを橋渡しする。
論文参考訳（メタデータ） (2021-04-29T07:52:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。