論文の概要: CRISP: Object Pose and Shape Estimation with Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2412.01052v1
- Date: Mon, 02 Dec 2024 02:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:41.631614
- Title: CRISP: Object Pose and Shape Estimation with Test-Time Adaptation
- Title(参考訳): CRISP:テスト時間適応によるオブジェクトポースと形状推定
- Authors: Jingnan Shi, Rajat Talak, Harry Zhang, David Jin, Luca Carlone,
- Abstract要約: RGB-D画像からオブジェクトのポーズと形状を推定する問題を考察する。
カテゴリに依存しないオブジェクトポーズと形状推定パイプラインであるCRISPを紹介する。
また,ドメインギャップによる推定誤差を補正する最適化型ポーズ・形状補正器を提案する。
- 参考スコア(独自算出の注目度): 21.51021467386653
- License:
- Abstract: We consider the problem of estimating object pose and shape from an RGB-D image. Our first contribution is to introduce CRISP, a category-agnostic object pose and shape estimation pipeline. The pipeline implements an encoder-decoder model for shape estimation. It uses FiLM-conditioning for implicit shape reconstruction and a DPT-based network for estimating pose-normalized points for pose estimation. As a second contribution, we propose an optimization-based pose and shape corrector that can correct estimation errors caused by a domain gap. Observing that the shape decoder is well behaved in the convex hull of known shapes, we approximate the shape decoder with an active shape model, and show that this reduces the shape correction problem to a constrained linear least squares problem, which can be solved efficiently by an interior point algorithm. Third, we introduce a self-training pipeline to perform self-supervised domain adaptation of CRISP. The self-training is based on a correct-and-certify approach, which leverages the corrector to generate pseudo-labels at test time, and uses them to self-train CRISP. We demonstrate CRISP (and the self-training) on YCBV, SPE3R, and NOCS datasets. CRISP shows high performance on all the datasets. Moreover, our self-training is capable of bridging a large domain gap. Finally, CRISP also shows an ability to generalize to unseen objects. Code and pre-trained models will be available on https://web.mit.edu/sparklab/research/crisp_object_pose_shape/.
- Abstract(参考訳): RGB-D画像からオブジェクトのポーズと形状を推定する問題を考察する。
最初のコントリビューションは、カテゴリに依存しないオブジェクトポーズと形状推定パイプラインであるCRISPの導入です。
パイプラインは形状推定のためのエンコーダ・デコーダモデルを実装している。
暗黙の形状再構成にはFiLM条件が、ポーズ推定にはポーズ正規化点を推定するためにDPTベースのネットワークが使用される。
2つ目のコントリビューションとして、ドメインギャップに起因する推定誤差を補正できる最適化ベースのポーズと形状補正器を提案する。
形状デコーダが既知の形状の凸殻でよく振る舞うことを観察し, 形状デコーダを活性形状モデルに近似し, 形状補正問題を制約線形最小二乗問題に還元し, 内部点アルゴリズムにより効率よく解けることを示す。
第3に、CRISPの自己教師付きドメイン適応を行うための自己学習パイプラインを導入する。
自己学習は、テスト時に擬似ラベルを生成するために修正子を活用し、CRISPを自己学習するために使用する、正当性と正当性のあるアプローチに基づいている。
我々は、YCBV、SPE3R、NOCSデータセット上でCRISP(および自己学習)を実証する。
CRISPはすべてのデータセットで高いパフォーマンスを示す。
さらに、私たちの自己学習は、大きなドメインギャップを埋めることができます。
最後に、CRISPは見えないオブジェクトに一般化する機能も備えている。
コードと事前トレーニングされたモデルはhttps://web.mit.edu/sparklab/research/crisp_object_pose_shape/.comで利用可能になる。
関連論文リスト
- RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - Optimal Target Shape for LiDAR Pose Estimation [1.9048510647598205]
ターゲットは、乱雑な環境やテクスチャのない環境でのオブジェクト追跡のような問題に不可欠である。
対称形状は、スパースセンサーデータを使用する際に曖昧さを生じさせる。
本稿では,LiDAR点雲のポーズあいまいさを除去するためにターゲット形状を最適化するという概念を紹介する。
論文 参考訳(メタデータ) (2021-09-02T19:18:24Z) - Optimal Pose and Shape Estimation for Category-level 3D Object
Perception [24.232254155643574]
カテゴリーレベルの知覚問題で、与えられたカテゴリのオブジェクトを撮影する3Dセンサーデータが与えられる。
ポーズと形状推定のための第1の最適CADソルバを提供する。
また, カテゴリレベルの知覚において, アウトレーヤを起点とするグラフ理論の定式化も行った。
論文 参考訳(メタデータ) (2021-04-16T21:41:29Z) - Adversarial Shape Learning for Building Extraction in VHR Remote Sensing
Images [18.650642666164252]
建物の形状パターンをモデル化する対比形状学習ネットワーク(ASLNet)を提案する。
実験の結果,提案したASLNetは画素ベース精度とオブジェクトベース測定の両方を大きなマージンで改善することがわかった。
論文 参考訳(メタデータ) (2021-02-22T18:49:43Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z) - Point2Mesh: A Self-Prior for Deformable Meshes [83.31236364265403]
本稿では,入力点雲から表面メッシュを再構築する技術であるPoint2Meshを紹介する。
自己優先型は、ディープニューラルネットワークの重み内の単一の形状から幾何的繰り返しをカプセル化する。
ここでは,Point2Meshが所望の解に収束することを示す。
論文 参考訳(メタデータ) (2020-05-22T10:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。