論文の概要: Glissando-Net: Deep sinGLe vIew category level poSe eStimation ANd 3D recOnstruction
- arxiv url: http://arxiv.org/abs/2501.14896v1
- Date: Fri, 24 Jan 2025 19:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:51.111942
- Title: Glissando-Net: Deep sinGLe vIew category level poSe eStimation ANd 3D recOnstruction
- Title(参考訳): Glissando-Net: Deep sinGLe vIew category level poSe e Stimation ANd 3D reOnstruction
- Authors: Bo Sun, Hao Kang, Li Guan, Haoxiang Li, Philippos Mordohai, Gang Hua,
- Abstract要約: Glissando-Netと呼ばれる深層学習モデルを提案し、同時にポーズを推定し、オブジェクトの3次元形状を再構築する。
Glissando-Netは2つの自動エンコーダで構成されており、共同で訓練されている。
- 参考スコア(独自算出の注目度): 23.243959739520427
- License:
- Abstract: We present a deep learning model, dubbed Glissando-Net, to simultaneously estimate the pose and reconstruct the 3D shape of objects at the category level from a single RGB image. Previous works predominantly focused on either estimating poses(often at the instance level), or reconstructing shapes, but not both. Glissando-Net is composed of two auto-encoders that are jointly trained, one for RGB images and the other for point clouds. We embrace two key design choices in Glissando-Net to achieve a more accurate prediction of the 3D shape and pose of the object given a single RGB image as input. First, we augment the feature maps of the point cloud encoder and decoder with transformed feature maps from the image decoder, enabling effective 2D-3D interaction in both training and prediction. Second, we predict both the 3D shape and pose of the object in the decoder stage. This way, we better utilize the information in the 3D point clouds presented only in the training stage to train the network for more accurate prediction. We jointly train the two encoder-decoders for RGB and point cloud data to learn how to pass latent features to the point cloud decoder during inference. In testing, the encoder of the 3D point cloud is discarded. The design of Glissando-Net is inspired by codeSLAM. Unlike codeSLAM, which targets 3D reconstruction of scenes, we focus on pose estimation and shape reconstruction of objects, and directly predict the object pose and a pose invariant 3D reconstruction without the need of the code optimization step. Extensive experiments, involving both ablation studies and comparison with competing methods, demonstrate the efficacy of our proposed method, and compare favorably with the state-of-the-art.
- Abstract(参考訳): 本稿では,Glissando-Netと呼ばれる深層学習モデルを提案し,一つのRGB画像から対象物の3次元形状を同時に推定し,再現する。
以前の作業は主に、ポーズ(多くの場合、インスタンスレベルで)を見積もるか、あるいは形を再構築することに集中していましたが、両方ではありません。
Glissando-Netは、共同でトレーニングされた2つの自動エンコーダで構成されている。
我々はGlissando-Netにおける2つの重要な設計選択を取り入れ、入力として単一のRGB画像が与えられたオブジェクトの3次元形状とポーズをより正確に予測する。
まず、画像デコーダから変換された特徴マップを用いて、ポイントクラウドエンコーダとデコーダの特徴マップを拡張し、トレーニングと予測の両方において効果的な2D-3Dインタラクションを実現する。
第二に、デコーダ段階での物体の3次元形状とポーズの両方を予測する。
このようにして、トレーニング段階でのみ提示される3Dポイントクラウドの情報を利用して、より正確な予測のためにネットワークをトレーニングする。
我々は、RGBとポイントクラウドデータ用の2つのエンコーダデコーダを共同でトレーニングし、推論中に遅延した機能をポイントクラウドデコーダに渡す方法を学ぶ。
テストでは、3Dポイントクラウドのエンコーダは破棄される。
Glissando-Netの設計はCodeSLAMにインスパイアされている。
シーンの3次元再構成を目標とするcodeSLAM とは異なり、オブジェクトのポーズ推定と形状再構成に重点を置いており、コード最適化ステップを必要とせずに、オブジェクトのポーズとポーズ不変な3次元再構成を直接予測する。
アブレーション研究と競合手法の比較の両方を含む広範囲な実験は,提案手法の有効性を実証し,最先端技術と比較した。
関連論文リスト
- Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers [38.08724410736292]
本稿では,3次元ポイントクラウド解析の課題を達成するために,2次元事前知識を持つ事前学習モデルの活用を試みる。
本稿では,適応ポイントフォーマー (APF) を提案する。
論文 参考訳(メタデータ) (2024-07-18T06:32:45Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Leveraging Single-View Images for Unsupervised 3D Point Cloud Completion [53.93172686610741]
Cross-PCCは3次元完全点雲を必要としない教師なしの点雲補完法である。
2次元画像の相補的な情報を活用するために,単視点RGB画像を用いて2次元特徴を抽出する。
我々の手法は、いくつかの教師付き手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-12-01T15:11:21Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - An Effective Loss Function for Generating 3D Models from Single 2D Image
without Rendering [0.0]
微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。
電流は、ある3d再構成対象のレンダリング画像と、与えられたマッチング視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。
再構成された3次元点群の投影が地上真理物体のシルエットをどの程度覆うかを評価する新しい効果的な損失関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T00:02:18Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z) - ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes [93.82668222075128]
RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-01-29T05:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。