論文の概要: DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via
Deformable Template Field
- arxiv url: http://arxiv.org/abs/2308.02239v1
- Date: Fri, 4 Aug 2023 10:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:11:18.218479
- Title: DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via
Deformable Template Field
- Title(参考訳): DTF-Net:デフォルマブルテンプレートフィールドによるカテゴリーレベルポーズ推定と形状再構成
- Authors: Haowen Wang, Zhipeng Fan, Zhen Zhao, Zhengping Che, Zhiyuan Xu, Dong
Liu, Feifei Feng, Yakun Huang, Xiuquan Qiao, Jian Tang
- Abstract要約: RGB-Depth画像ペアから、オープンワールドシーンの6Dポーズの推定と3D形状の再構築は困難である。
本稿では,オブジェクトカテゴリの暗黙的ニューラルネットワークに基づくポーズ推定と形状再構成のための新しいフレームワークであるDTF-Netを提案する。
- 参考スコア(独自算出の注目度): 29.42222066097076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 6D poses and reconstructing 3D shapes of objects in open-world
scenes from RGB-depth image pairs is challenging. Many existing methods rely on
learning geometric features that correspond to specific templates while
disregarding shape variations and pose differences among objects in the same
category. As a result, these methods underperform when handling unseen object
instances in complex environments. In contrast, other approaches aim to achieve
category-level estimation and reconstruction by leveraging normalized geometric
structure priors, but the static prior-based reconstruction struggles with
substantial intra-class variations. To solve these problems, we propose the
DTF-Net, a novel framework for pose estimation and shape reconstruction based
on implicit neural fields of object categories. In DTF-Net, we design a
deformable template field to represent the general category-wise shape latent
features and intra-category geometric deformation features. The field
establishes continuous shape correspondences, deforming the category template
into arbitrary observed instances to accomplish shape reconstruction. We
introduce a pose regression module that shares the deformation features and
template codes from the fields to estimate the accurate 6D pose of each object
in the scene. We integrate a multi-modal representation extraction module to
extract object features and semantic masks, enabling end-to-end inference.
Moreover, during training, we implement a shape-invariant training strategy and
a viewpoint sampling method to further enhance the model's capability to
extract object pose features. Extensive experiments on the REAL275 and CAMERA25
datasets demonstrate the superiority of DTF-Net in both synthetic and real
scenes. Furthermore, we show that DTF-Net effectively supports grasping tasks
with a real robot arm.
- Abstract(参考訳): RGB-Depth画像ペアから、オープンワールドシーンの6Dポーズの推定と3D形状の再構築は困難である。
既存の多くの手法は、形状のバリエーションを無視しながら、特定のテンプレートに対応する幾何学的特徴を学習し、同じカテゴリのオブジェクト間で差異を生じさせる。
その結果、複雑な環境で見えないオブジェクトインスタンスを扱う場合、これらのメソッドは性能が劣る。
対照的に、他の手法は、正規化された幾何構造を活かしてカテゴリレベルの推定と再構成をすることを目的としているが、静的な事前ベース再構築は、かなりクラス内の変化に苦慮している。
そこで本稿では,対象カテゴリーの暗黙的神経場に基づくポーズ推定と形状再構成のための新しいフレームワークであるdtf-netを提案する。
DTF-Netでは、一般的なカテゴリワイドの潜在特徴とカテゴリ内幾何学的変形特徴を表す変形可能なテンプレートフィールドを設計する。
フィールドは連続的な形状対応を確立し、カテゴリテンプレートを任意の観測インスタンスに変形して形状再構成を行う。
本稿では,フィールドから変形特徴とテンプレートコードを共有するポーズ回帰モジュールを導入し,シーン内の各オブジェクトの正確な6dポーズを推定する。
オブジェクトの特徴やセマンティックマスクを抽出するために,マルチモーダル表現抽出モジュールを統合する。
さらに、トレーニング中に、形状不変のトレーニング戦略と視点サンプリング手法を実装し、オブジェクトのポーズ特徴を抽出するモデルの能力をさらに強化する。
REAL275とCAMERA25データセットの大規模な実験は、合成シーンと実シーンの両方において、DTF-Netの優位性を実証している。
さらに, dtf-netは実ロボットアームによる把持タスクを効果的にサポートすることを示す。
関連論文リスト
- Diffusion-Driven Self-Supervised Learning for Shape Reconstruction and Pose Estimation [26.982199143972835]
本稿では,多目的形状再構成とカテゴリー的ポーズ推定のための拡散駆動型自己教師ネットワークを提案する。
提案手法は,最先端の自己監督型カテゴリレベルのベースラインを著しく上回り,完全教師型インスタンスレベルのメソッドやカテゴリレベルのメソッドをはるかに上回っている。
論文 参考訳(メタデータ) (2024-03-19T13:43:27Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - DeFormer: Integrating Transformers with Deformable Models for 3D Shape
Abstraction from a Single Image [31.154786931081087]
本稿では,パラメータ化デフォルマブルモデルと統合された新しいバイチャネルトランスフォーマアーキテクチャを提案し,プリミティブのグローバルおよび局所的な変形を同時に推定する。
DeFormerは、最先端技術よりもより良い再構築精度を実現し、一貫したセマンティック対応で可視化し、解釈性を向上させる。
論文 参考訳(メタデータ) (2023-09-22T02:46:43Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Leveraging SE(3) Equivariance for Self-Supervised Category-Level Object
Pose Estimation [30.04752448942084]
カテゴリーレベルのオブジェクトポーズ推定は、オブジェクトCADモデルにアクセスすることなく、既知のカテゴリから未確認のオブジェクトインスタンスの6Dオブジェクトポーズを見つけることを目的としている。
本研究では,1つの3次元点群からカテゴリレベルの6次元オブジェクトのポーズを推定する自己教師型学習フレームワークを初めて提案する。
論文 参考訳(メタデータ) (2021-10-30T06:46:44Z) - Multi-Category Mesh Reconstruction From Image Collections [90.24365811344987]
本稿では, 一連の変形可能な3次元モデルとインスタンス固有の変形, ポーズ, テクスチャのセットを組み合わせた, オブジェクトのテクスチャメッシュを推定する手法を提案する。
本手法は,前景マスクと粗いカメラポーズのみを監督として,複数の対象カテゴリの画像を用いて訓練する。
実験により,提案フレームワークは異なる対象カテゴリを区別し,教師なしの方法でカテゴリ固有の形状を学習できることが示唆された。
論文 参考訳(メタデータ) (2021-10-21T16:32:31Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。