論文の概要: Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference
- arxiv url: http://arxiv.org/abs/2406.18453v2
- Date: Tue, 02 Sep 2025 13:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 17:24:09.029474
- Title: Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference
- Title(参考訳): 人間のレベル3次元相対ポース推定に向けて: 単一参照による一般化可能・学習不要
- Authors: Yuan Gao, Yajing Luo, Junhong Wang, Kui Jia, Gui-Song Xia,
- Abstract要約: 人間は、単一のクエリ参照イメージペアのみを前提として、ラベル付けやトレーニングをすることなく、これまで見られなかったオブジェクトの相対的なポーズを容易に推論することができる。
RGB-D参照から3D/2.5D形状認識と2.5D形状認識を併用した新しい3次元一般化可能な相対ポーズ推定法を提案する。
RGBとセマンティックマップ(DINOv2がRGB入力から取得)によってテクスチャ化された2.5Dの回転可能なメッシュを識別し、新しいRGBとセマンティックマップを新しい回転ビューの下でレンダリングする。
- 参考スコア(独自算出の注目度): 65.42565481489132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can easily deduce the relative pose of a previously unseen object, without labeling or training, given only a single query-reference image pair. This is arguably achieved by incorporating i) 3D/2.5D shape perception from a single image, ii) render-and-compare simulation, and iii) rich semantic cue awareness to furnish (coarse) reference-query correspondence. Motivated by this, we propose a novel 3D generalizable relative pose estimation method by elaborating 3D/2.5D shape perception with a 2.5D shape from an RGB-D reference, fulfilling the render-and-compare paradigm with an off-the-shelf differentiable renderer, and leveraging the semantic cues from a pretrained model like DINOv2. Specifically, our differentiable renderer takes the 2.5D rotatable mesh textured by the RGB and the semantic maps (obtained by DINOv2 from the RGB input), then renders new RGB and semantic maps (with back-surface culling) under a novel rotated view. The refinement loss comes from comparing the rendered RGB and semantic maps with the query ones, back-propagating the gradients through the differentiable renderer to refine the 3D relative pose. As a result, \emph{our method can be readily applied to unseen objects, given only a single RGB-D reference, without labeling or training}. Extensive experiments on LineMOD, LM-O, and YCB-V show that our training-free method significantly outperforms the state-of-the-art supervised methods, especially under the rigorous \texttt{Acc@5/10/15}$^\circ$ metrics and the challenging cross-dataset settings.
- Abstract(参考訳): 人間は、単一のクエリ参照イメージペアのみを前提として、ラベル付けやトレーニングをすることなく、これまで見られなかったオブジェクトの相対的なポーズを容易に推論することができる。
これは必然的に組み込むことによって達成される
一 単一の画像からの3D/2.5D形状の知覚
二 レンダリング・アンド・コンペアシミュレーション及び
三 粗悪な(粗悪な)参照クエリ対応に対する豊かな意味的キューの認識。
そこで本研究では,RGB-D参照から3D/2.5D形状認識を2.5D形状に定式化し,既製のDINOv2のような事前学習モデルからのセマンティックキューを活用することで,新しい3D一般化可能な相対ポーズ推定手法を提案する。
具体的には、RGBとセマンティックマップ(DINOv2がRGB入力から取得)でテクスチャ化された2.5Dのロータテーブルメッシュを、新しいRGBとセマンティックマップ(裏面カリング付き)を、新しい回転ビューでレンダリングする。
洗練された損失は、レンダリングされたRGBとセマンティックマップをクエリマップと比較し、微分可能なレンダラーを通して勾配をバックプロパゲートして、3D相対的なポーズを洗練させることによって生じる。
結果として、 \emph{our メソッドは、ラベル付けやトレーニングなしに、単一の RGB-D 参照のみを与えられた、見知らぬオブジェクトに容易に適用できる。
LineMOD, LM-O, YCB-Vの大規模実験により, トレーニングフリー手法は最先端の教師付き手法, 特に厳密な<texttt{Acc@5/10/15}$^\circ$メトリクスと挑戦的なクロスデータセット設定において, 著しく優れていた。
関連論文リスト
- Adapting Human Mesh Recovery with Vision-Language Feedback [17.253535686451897]
視覚言語モデルを用いて対話的な身体部分記述を生成する。
我々はテキストエンコーダとポーズVQ-VAEをトレーニングし、テキストを共有潜在空間内のボディポーズにアライメントする。
モデルは正確な3D知覚と画像の一貫性を持ったポーズを生成することができる。
論文 参考訳(メタデータ) (2025-02-06T07:42:00Z) - MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation [8.840744039764092]
本稿では,1枚のRGB画像から3次元コンピュータ支援デザイン(CAD)モデルを用いてオブジェクトの6-DoFポーズを決定するための単発アプローチを提案する。
まず、ポーズ分類を行い、3Dオブジェクトを分類されたポーズに描画する。
第2段階は、クラス内のきめ細かい残留ポーズを予測するために回帰を実行する。
論文 参考訳(メタデータ) (2024-03-12T18:36:59Z) - MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。