論文の概要: Point Cloud Mixture-of-Domain-Experts Model for 3D Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2410.09886v3
- Date: Tue, 03 Jun 2025 01:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.580558
- Title: Point Cloud Mixture-of-Domain-Experts Model for 3D Self-supervised Learning
- Title(参考訳): 3次元自己教師型学習のための点雲混合実験モデル
- Authors: Yaohua Zha, Tao Dai, Hang Guo, Yanzi Wang, Bin Chen, Ke Chen, Shu-Tao Xia,
- Abstract要約: ポイントクラウドは、3Dデータの主表現として、シーンドメインポイントクラウドとオブジェクトドメインポイントクラウドに分類することができる。
本稿では,ブロック・ツー・シーン事前学習戦略を用いて,総合的なPoint Cloud Mixture-of-Domain-Expertsモデル(Point-MoDE)を学習することを提案する。
- 参考スコア(独自算出の注目度): 50.55005524072687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point clouds, as a primary representation of 3D data, can be categorized into scene domain point clouds and object domain point clouds. Point cloud self-supervised learning (SSL) has become a mainstream paradigm for learning 3D representations. However, existing point cloud SSL primarily focuses on learning domain-specific 3D representations within a single domain, neglecting the complementary nature of cross-domain knowledge, which limits the learning of 3D representations. In this paper, we propose to learn a comprehensive Point cloud Mixture-of-Domain-Experts model (Point-MoDE) via a block-to-scene pre-training strategy. Specifically, we first propose a mixture-of-domain-expert model consisting of scene domain experts and multiple shared object domain experts. Furthermore, we propose a block-to-scene pretraining strategy, which leverages the features of point blocks in the object domain to regress their initial positions in the scene domain through object-level block mask reconstruction and scene-level block position regression. By integrating the complementary knowledge between object and scene, this strategy simultaneously facilitates the learning of both object-domain and scene-domain representations, leading to a more comprehensive 3D representation. Extensive experiments in downstream tasks demonstrate the superiority of our model.
- Abstract(参考訳): ポイントクラウドは、3Dデータの主表現として、シーンドメインポイントクラウドとオブジェクトドメインポイントクラウドに分類することができる。
ポイントクラウドによる自己教師型学習(SSL)は、3D表現を学習するための主流パラダイムとなっている。
しかし、既存のポイントクラウドSSLは、主に単一のドメイン内でドメイン固有の3D表現を学習することに焦点を当てており、3D表現の学習を制限するクロスドメイン知識の補完的な性質を無視している。
本稿では,ブロック・ツー・シーン事前学習戦略を用いて,総合的なPoint Cloud Mixture-of-Domain-Expertsモデル(Point-MoDE)を学習することを提案する。
具体的には、まずシーンドメインの専門家と複数の共有オブジェクトドメインエキスパートからなるドメイン-エキスパートの混合モデルを提案する。
さらに、オブジェクト領域におけるポイントブロックの特徴を活用して、オブジェクトレベルのブロックマスク再構成とシーンレベルのブロック位置回帰を通じて、シーン領域における初期位置を回帰するブロック・ツー・シーン事前学習戦略を提案する。
オブジェクトとシーン間の補完的な知識を統合することで、この戦略はオブジェクトドメインとシーンドメインの両方の表現の学習を同時に促進し、より包括的な3D表現をもたらす。
下流タスクにおける大規模な実験は、我々のモデルの優位性を示している。
関連論文リスト
- Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts [7.787211625411271]
我々は,3次元知覚におけるクロスドメインの一般化を実現するために,Mixture-of-ExpertsアーキテクチャであるPoint-MoEを提案する。
標準的なポイントクラウドバックボーンは、混合ドメインデータでトレーニングされた場合、パフォーマンスが大幅に低下する。
シンプルなトップkルーティング戦略のPoint-MoEは、ドメインラベルにアクセスしなくても、専門家を自動的に専門化することができる。
論文 参考訳(メタデータ) (2025-05-29T18:21:47Z) - 3D Focusing-and-Matching Network for Multi-Instance Point Cloud Registration [45.579241614565376]
マルチインスタンスポイントクラウド登録のための強力な3D焦点マッチングネットワークを提案する。
自己アテンションと横断アテンションを使用することで、オブジェクトセンターを後退させることで、潜在的なマッチングインスタンスを見つけることができる。
提案手法は,マルチインスタンスポイントクラウド登録タスクにおいて,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-12T12:04:44Z) - One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection [71.78795573911512]
textbfOneDet3Dは、異なるドメイン間での3D検出に対処する汎用的なワン・ツー・オール・モデルである。
本稿では、データ干渉問題に対処するため、ルーティング機構によって誘導される散乱とコンテキストにおけるドメイン認識を提案する。
完全なスパース構造とアンカーフリーヘッドは、さらに大きなスケールの差のある点雲を収容する。
論文 参考訳(メタデータ) (2024-11-03T14:21:56Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - ZeroReg: Zero-Shot Point Cloud Registration with Foundation Models [77.84408427496025]
最先端の3Dポイントクラウド登録方法は、トレーニングのためにラベル付き3Dデータセットに依存している。
我々は2次元基礎モデルを用いて3次元対応を予測するゼロショット登録手法であるZeroRegを紹介する。
論文 参考訳(メタデータ) (2023-12-05T11:33:16Z) - Compositional Semantic Mix for Domain Adaptation in Point Cloud
Segmentation [65.78246406460305]
合成意味混合は、ポイントクラウドセグメンテーションのための最初の教師なし領域適応技術である。
本稿では、ソースドメイン(例えば合成)からの点雲とターゲットドメイン(例えば実世界)からの点雲を同時に処理できる2分岐対称ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T14:43:36Z) - Point-Syn2Real: Semi-Supervised Synthetic-to-Real Cross-Domain Learning
for Object Classification in 3D Point Clouds [14.056949618464394]
LiDAR 3Dポイントクラウドデータを用いたオブジェクト分類は、自律運転のような現代的なアプリケーションにとって重要である。
本稿では,ポイントクラウドのマニュアルアノテーションに依存しない半教師付きクロスドメイン学習手法を提案する。
我々は、ポイントクラウド上でのクロスドメイン学習のための新しいベンチマークデータセットであるPoint-Syn2Realを紹介した。
論文 参考訳(メタデータ) (2022-10-31T01:53:51Z) - OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point
Clouds [4.709764624933227]
OGCと呼ばれる最初の教師なしの手法を提案し、同時に複数の3Dオブジェクトを1つの前方通過で識別する。
提案手法を5つのデータセット上で広範囲に評価し,オブジェクト部分のインスタンスセグメンテーションにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-10T07:01:08Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。
最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。
総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文 参考訳(メタデータ) (2022-07-04T16:13:27Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - SE(3)-Equivariant Attention Networks for Shape Reconstruction in
Function Space [50.14426188851305]
本稿では,第1のSE(3)-equivariant coordinate-based networkを提案する。
入力を正規格子に整列させる従来の形状再構成法とは対照的に、不規則で無向な点雲を直接操作する。
提案手法は,従来のSO(3)-equivariant法,およびSO(3)-augmented dataで訓練された非equivariant法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:15Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z) - Masked Discrimination for Self-Supervised Learning on Point Clouds [27.652157544218234]
マスク付きオートエンコーディングは、画像と言語領域における自己教師型学習において大きな成功を収めた。
PointNetのような標準的なバックボーンは、トレーニング中にマスクによって導入された分散ミスマッチのトレーニングとテストのミスマッチを適切に処理できない。
我々はこのギャップを、ポイントクラウドのための差別マスク事前学習フレームワークMaskPointを提案し、橋渡しする。
論文 参考訳(メタデータ) (2022-03-21T17:57:34Z) - Self-Supervised Feature Learning from Partial Point Clouds via Pose
Disentanglement [35.404285596482175]
部分点雲から情報表現を学習するための,新たな自己教師型フレームワークを提案する。
コンテンツとポーズ属性の両方を含むLiDARでスキャンされた部分点雲を利用する。
提案手法は,既存の自己教師付き手法に勝るだけでなく,合成および実世界のデータセット間でのより優れた一般化性を示す。
論文 参考訳(メタデータ) (2022-01-09T14:12:50Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。