論文の概要: Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference
- arxiv url: http://arxiv.org/abs/2406.18453v1
- Date: Wed, 26 Jun 2024 16:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:00:05.250630
- Title: Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference
- Title(参考訳): 人間のレベル3次元相対ポース推定に向けて: 単一参照による一般化可能・学習不要
- Authors: Yuan Gao, Yajing Luo, Junhong Wang, Kui Jia, Gui-Song Xia,
- Abstract要約: 人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
- 参考スコア(独自算出の注目度): 62.99706119370521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can easily deduce the relative pose of an unseen object, without label/training, given only a single query-reference image pair. This is arguably achieved by incorporating (i) 3D/2.5D shape perception from a single image, (ii) render-and-compare simulation, and (iii) rich semantic cue awareness to furnish (coarse) reference-query correspondence. Existing methods implement (i) by a 3D CAD model or well-calibrated multiple images and (ii) by training a network on specific objects, which necessitate laborious ground-truth labeling and tedious training, potentially leading to challenges in generalization. Moreover, (iii) was less exploited in the paradigm of (ii), despite that the coarse correspondence from (iii) enhances the compare process by filtering out non-overlapped parts under substantial pose differences/occlusions. Motivated by this, we propose a novel 3D generalizable relative pose estimation method by elaborating (i) with a 2.5D shape from an RGB-D reference, (ii) with an off-the-shelf differentiable renderer, and (iii) with semantic cues from a pretrained model like DINOv2. Specifically, our differentiable renderer takes the 2.5D rotatable mesh textured by the RGB and the semantic maps (obtained by DINOv2 from the RGB input), then renders new RGB and semantic maps (with back-surface culling) under a novel rotated view. The refinement loss comes from comparing the rendered RGB and semantic maps with the query ones, back-propagating the gradients through the differentiable renderer to refine the 3D relative pose. As a result, our method can be readily applied to unseen objects, given only a single RGB-D reference, without label/training. Extensive experiments on LineMOD, LM-O, and YCB-V show that our training-free method significantly outperforms the SOTA supervised methods, especially under the rigorous Acc@5/10/15{\deg} metrics and the challenging cross-dataset settings.
- Abstract(参考訳): 人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
これは必然的に組み込むことによって達成される
(i)1枚の画像からの3D/2.5D形状知覚
(ii)レンダリング・アンド・コンペアシミュレーション、及び
第三に、(粗い)参照-クエリ対応に対する豊かなセマンティックキュー認識。
既存のメソッドの実装
(i)3次元CADモデルまたはよく校正された複数画像による。
(II) 特定の対象に対してネットワークをトレーニングすることにより, 退屈な地味なラベル付けと退屈なトレーニングが必要となり, 一般化の課題に繋がる可能性が示唆された。
さらに
三) パラダイムの面での搾取が少なかったこと
(二) 粗雑な対応にもかかわらず
三 実質的な相違・排他的相違により、重複しない部分をろ過して比較工程を強化すること。
そこで我々は,新しい3次元一般化可能な相対ポーズ推定法を提案する。
(i)RGB-D参照の2.5D形状
(ii)市販の差別化可能なレンダラーで、
(iii) DINOv2のような事前訓練されたモデルからのセマンティックな手がかり。
具体的には、RGBとセマンティックマップ(DINOv2がRGB入力から取得)でテクスチャ化された2.5Dのロータテーブルメッシュを、新しいRGBとセマンティックマップ(裏面カリング付き)を、新しい回転ビューでレンダリングする。
洗練された損失は、レンダリングされたRGBとセマンティックマップをクエリマップと比較し、微分可能なレンダラーを通して勾配をバックプロパゲートして、3D相対的なポーズを洗練させることによって生じる。
その結果,1つのRGB-D参照しか持たず,ラベルやトレーニングを伴わない未確認オブジェクトに対して,本手法が容易に適用可能となった。
LineMOD, LM-O, YCB-Vの大規模実験により, トレーニングフリー手法は, 特に厳密なAcc@5/10/15{\deg}測定値と難解なクロスデータセット設定の下で, SOTAの教師付き手法を著しく上回っていることが明らかとなった。
関連論文リスト
- MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation [8.840744039764092]
本稿では,1枚のRGB画像から3次元コンピュータ支援デザイン(CAD)モデルを用いてオブジェクトの6-DoFポーズを決定するための単発アプローチを提案する。
まず、ポーズ分類を行い、3Dオブジェクトを分類されたポーズに描画する。
第2段階は、クラス内のきめ細かい残留ポーズを予測するために回帰を実行する。
論文 参考訳(メタデータ) (2024-03-12T18:36:59Z) - MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。