論文の概要: Diffusion-Driven Self-Supervised Learning for Shape Reconstruction and Pose Estimation
- arxiv url: http://arxiv.org/abs/2403.12728v1
- Date: Tue, 19 Mar 2024 13:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:03:59.018183
- Title: Diffusion-Driven Self-Supervised Learning for Shape Reconstruction and Pose Estimation
- Title(参考訳): 拡散駆動型自己教師付き学習による形状再構成と姿勢推定
- Authors: Jingtao Sun, Yaonan Wang, Mingtao Feng, Chao Ding, Mike Zheng Shou, Ajmal Saeed Mian,
- Abstract要約: 本稿では,多目的形状再構成とカテゴリー的ポーズ推定のための拡散駆動型自己教師ネットワークを提案する。
提案手法は,最先端の自己監督型カテゴリレベルのベースラインを著しく上回り,完全教師型インスタンスレベルのメソッドやカテゴリレベルのメソッドをはるかに上回っている。
- 参考スコア(独自算出の注目度): 26.982199143972835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully-supervised category-level pose estimation aims to determine the 6-DoF poses of unseen instances from known categories, requiring expensive mannual labeling costs. Recently, various self-supervised category-level pose estimation methods have been proposed to reduce the requirement of the annotated datasets. However, most methods rely on synthetic data or 3D CAD model for self-supervised training, and they are typically limited to addressing single-object pose problems without considering multi-objective tasks or shape reconstruction. To overcome these challenges and limitations, we introduce a diffusion-driven self-supervised network for multi-object shape reconstruction and categorical pose estimation, only leveraging the shape priors. Specifically, to capture the SE(3)-equivariant pose features and 3D scale-invariant shape information, we present a Prior-Aware Pyramid 3D Point Transformer in our network. This module adopts a point convolutional layer with radial-kernels for pose-aware learning and a 3D scale-invariant graph convolution layer for object-level shape representation, respectively. Furthermore, we introduce a pretrain-to-refine self-supervised training paradigm to train our network. It enables proposed network to capture the associations between shape priors and observations, addressing the challenge of intra-class shape variations by utilising the diffusion mechanism. Extensive experiments conducted on four public datasets and a self-built dataset demonstrate that our method significantly outperforms state-of-the-art self-supervised category-level baselines and even surpasses some fully-supervised instance-level and category-level methods.
- Abstract(参考訳): 完全に監督されたカテゴリレベルのポーズ推定は、未知のインスタンスの6-DoFのポーズを既知のカテゴリから決定することを目的としている。
近年,注釈付きデータセットの要求を減らし,自己教師付きカテゴリレベルのポーズ推定手法が提案されている。
しかし、ほとんどの手法は、自己指導訓練のための合成データや3次元CADモデルに依存しており、通常、多目的タスクや形状再構成を考慮せずに、単目的のポーズ問題に対処することに限定される。
これらの課題と限界を克服するために,複数対象形状の再構成とカテゴリー的ポーズ推定のための拡散駆動型自己教師ネットワークを導入する。
具体的には,SE(3)-equivariantのポーズ特徴と3次元スケール不変形状情報を取得するために,我々のネットワークにプリア・アウェア・ピラミッド3Dポイント・トランスを提示する。
このモジュールは、ポーズ認識学習のためのラジアルカーネルを備えた点畳み込み層と、オブジェクトレベルの形状表現のための3次元スケール不変グラフ畳み込み層とをそれぞれ採用する。
さらに,ネットワークをトレーニングするために,事前訓練から自己教師付きトレーニングパラダイムを導入する。
提案手法は, 拡散機構を利用して, 形状先行と観察の関係を把握し, クラス内形状変化の課題に対処する。
4つの公開データセットと1つの自己構築データセットで実施された大規模な実験により、我々の手法は最先端の自己監督型カテゴリレベルのベースラインを著しく上回り、完全に教師されたインスタンスレベルとカテゴリレベルのメソッドをはるかに上回っていることが証明された。
関連論文リスト
- UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - 3D Shape Completion on Unseen Categories:A Weakly-supervised Approach [61.76304400106871]
未確認のカテゴリから完全な形状を再構築するための、新しい弱教師付きフレームワークを導入する。
まず,各カテゴリから得られたデータを利用して粗い形状を推定する,エンドツーエンドの事前支援型形状学習ネットワークを提案する。
さらに, 粗い形状をさらに洗練させるために, 自己教師型形状改善モデルを提案する。
論文 参考訳(メタデータ) (2024-01-19T09:41:09Z) - A Fusion of Variational Distribution Priors and Saliency Map Replay for Continual 3D Reconstruction [1.2289361708127877]
単一画像からの3次元物体形状の予測に焦点をあてた研究課題である。
このタスクは、形状の可視部分と隠蔽部分の両方を予測するために、重要なデータ取得を必要とする。
本稿では,従来のクラスを新しいクラスで学習した後でも合理的に再構築できる変分優先を用いたモデルの設計を目標とする,連続的な学習に基づく3D再構成手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:48:55Z) - DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via
Deformable Template Field [29.42222066097076]
RGB-Depth画像ペアから、オープンワールドシーンの6Dポーズの推定と3D形状の再構築は困難である。
本稿では,オブジェクトカテゴリの暗黙的ニューラルネットワークに基づくポーズ推定と形状再構成のための新しいフレームワークであるDTF-Netを提案する。
論文 参考訳(メタデータ) (2023-08-04T10:35:40Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Towards Self-Supervised Category-Level Object Pose and Size Estimation [121.28537953301951]
本研究は,一深度画像からのカテゴリレベルのオブジェクトポーズとサイズ推定のための自己教師型フレームワークを提案する。
我々は、同じ形状の点雲における幾何学的整合性を利用して自己超越する。
論文 参考訳(メタデータ) (2022-03-06T06:02:30Z) - Leveraging SE(3) Equivariance for Self-Supervised Category-Level Object
Pose Estimation [30.04752448942084]
カテゴリーレベルのオブジェクトポーズ推定は、オブジェクトCADモデルにアクセスすることなく、既知のカテゴリから未確認のオブジェクトインスタンスの6Dオブジェクトポーズを見つけることを目的としている。
本研究では,1つの3次元点群からカテゴリレベルの6次元オブジェクトのポーズを推定する自己教師型学習フレームワークを初めて提案する。
論文 参考訳(メタデータ) (2021-10-30T06:46:44Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。