論文の概要: Self-supervised Learning of Rotation-invariant 3D Point Set Features using Transformer and its Self-distillation
- arxiv url: http://arxiv.org/abs/2308.04725v2
- Date: Thu, 18 Apr 2024 23:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:26:30.406576
- Title: Self-supervised Learning of Rotation-invariant 3D Point Set Features using Transformer and its Self-distillation
- Title(参考訳): 変圧器を用いた回転不変3次元点集合の特徴の自己教師付き学習とその自己蒸留
- Authors: Takahiko Furuya, Zhoujie Chen, Ryutarou Ohbuchi, Zhenzhong Kuang,
- Abstract要約: 本稿では,オブジェクトレベルでの高精度かつ回転不変な3次元点集合特徴を取得するための,自己教師付き学習フレームワークを提案する。
トークンを改良し,それを3次元点集合ごとに表現的回転不変の特徴に集約するために,自己認識機構を用いる。
提案アルゴリズムは,既存のアルゴリズムよりも高精度な回転不変の3次元点集合特徴を学習する。
- 参考スコア(独自算出の注目度): 3.1652399282742536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Invariance against rotations of 3D objects is an important property in analyzing 3D point set data. Conventional 3D point set DNNs having rotation invariance typically obtain accurate 3D shape features via supervised learning by using labeled 3D point sets as training samples. However, due to the rapid increase in 3D point set data and the high cost of labeling, a framework to learn rotation-invariant 3D shape features from numerous unlabeled 3D point sets is required. This paper proposes a novel self-supervised learning framework for acquiring accurate and rotation-invariant 3D point set features at object-level. Our proposed lightweight DNN architecture decomposes an input 3D point set into multiple global-scale regions, called tokens, that preserve the spatial layout of partial shapes composing the 3D object. We employ a self-attention mechanism to refine the tokens and aggregate them into an expressive rotation-invariant feature per 3D point set. Our DNN is effectively trained by using pseudo-labels generated by a self-distillation framework. To facilitate the learning of accurate features, we propose to combine multi-crop and cut-mix data augmentation techniques to diversify 3D point sets for training. Through a comprehensive evaluation, we empirically demonstrate that, (1) existing rotation-invariant DNN architectures designed for supervised learning do not necessarily learn accurate 3D shape features under a self-supervised learning scenario, and (2) our proposed algorithm learns rotation-invariant 3D point set features that are more accurate than those learned by existing algorithms. Code is available at https://github.com/takahikof/RIPT_SDMM
- Abstract(参考訳): 3次元物体の回転に対する不変性は、3次元点集合データを解析する上で重要な性質である。
回転不変性を持つ従来の3D点集合DNNは、通常、ラベル付き3D点集合をトレーニングサンプルとして使用して教師あり学習により正確な3D形状特徴を得る。
しかし、3D点集合の急速な増加とラベル付けコストの高騰により、多数のラベルのない3D点集合から回転不変な3D形状特徴を学習するフレームワークが必要である。
本稿では,オブジェクトレベルでの高精度かつ回転不変な3次元点集合特徴を取得するための,自己教師付き学習フレームワークを提案する。
提案する軽量DNNアーキテクチャでは,3Dオブジェクトを構成する部分形状の空間的レイアウトを保持するトークンと呼ばれる,複数のグローバルスケール領域に設定された入力3Dポイントを分解する。
トークンを改良し,それを3次元点集合ごとに表現的回転不変の特徴に集約するために,自己認識機構を用いる。
我々のDNNは、自己蒸留フレームワークによって生成された擬似ラベルを用いて効果的に訓練されている。
正確な特徴の学習を容易にするために,マルチクロップとカットミックスデータ拡張技術を組み合わせて,トレーニング用3次元点集合を多様化する手法を提案する。
包括的評価を通じて,(1)教師付き学習のために設計された既存の回転不変DNNアーキテクチャは,自己教師付き学習シナリオ下で必ずしも正確な3次元形状の特徴を学習するとは限らないことを実証的に示し,(2)提案アルゴリズムは既存のアルゴリズムよりも正確な回転不変3次元点集合の特徴を学習する。
コードはhttps://github.com/takahikof/RIPT_SDMMで入手できる。
関連論文リスト
- Point-DETR3D: Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection [32.86369670395974]
本稿では,弱半教師付き3D検出のための教師支援フレームワークであるPoint-DETR3Dを紹介する。
ラベル付きデータの5%しか持たないPoint-DETR3Dは、完全な教師付きデータのパフォーマンスを90%以上達成している。
論文 参考訳(メタデータ) (2024-03-22T16:11:29Z) - MaskLRF: Self-supervised Pretraining via Masked Autoencoding of Local Reference Frames for Rotation-invariant 3D Point Set Analysis [1.19658449368018]
本稿では,3次元点集合解析のための回転不変な自己教師付き事前学習フレームワークを初めて開発する。
提案したアルゴリズムはMaskLRFと呼ばれ、3Dポイントのマスク付きオートエンコーディングにより回転不変かつ高度に一般化可能な潜在特徴を学習する。
そこで,MaskLRFは,非矛盾な向きを持つ3次元点集合の解析において,最先端の精度を実現していることを確認した。
論文 参考訳(メタデータ) (2024-03-01T00:42:49Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - SNAKE: Shape-aware Neural 3D Keypoint Field [62.91169625183118]
形状復元には点雲から3Dキーポイントを検出することが重要である。
形状再構成は3次元キーポイント検出に有効か?
本稿では,形状認識型ニューラル3Dキーポイントフィールドに短いSNAKEという,教師なしの新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-03T17:58:43Z) - ConDor: Self-Supervised Canonicalization of 3D Pose for Partial Shapes [55.689763519293464]
ConDorは、完全および部分的な3次元点雲の3次元配向と位置を正準化することを学ぶ自己教師型手法である。
推測中,本手法は任意のポーズで完全あるいは部分的な3次元点の雲を抽出し,同変正則のポーズを出力する。
論文 参考訳(メタデータ) (2022-01-19T18:57:21Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Rotation-Invariant Local-to-Global Representation Learning for 3D Point
Cloud [42.86112554931754]
本稿では,3次元点クラウドデータに対する局所的-言語的表現学習アルゴリズムを提案する。
本モデルは,グラフ畳み込みニューラルネットワークに基づく多レベル抽象化を利用する。
提案アルゴリズムは,3次元物体の回転認識とセグメント化のベンチマークにおいて,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-10-07T10:30:20Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。