論文の概要: Geo6DPose: Fast Zero-Shot 6D Object Pose Estimation via Geometry-Filtered Feature Matching
- arxiv url: http://arxiv.org/abs/2512.10674v1
- Date: Thu, 11 Dec 2025 14:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.407164
- Title: Geo6DPose: Fast Zero-Shot 6D Object Pose Estimation via Geometry-Filtered Feature Matching
- Title(参考訳): Geo6DPose:Geoometry-Filtered Feature Matchingによる高速ゼロショット6Dオブジェクトポス推定
- Authors: Javier Villena Toro, Mehdi Tarkian,
- Abstract要約: Geo6DPoseは、ゼロショット6Dポーズ推定のための軽量で、完全にローカルで、トレーニング不要なパイプラインである。
Geo6DPoseは、1つのコモディティGPU上で、はるかに大きなゼロショットベースラインの平均リコールをマッチングしながら、サブ秒の推論を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in zero-shot 6D object pose estimation has been driven largely by large-scale models and cloud-based inference. However, these approaches often introduce high latency, elevated energy consumption, and deployment risks related to connectivity, cost, and data governance; factors that conflict with the practical constraints of real-world robotics, where compute is limited and on-device inference is frequently required. We introduce Geo6DPose, a lightweight, fully local, and training-free pipeline for zero-shot 6D pose estimation that trades model scale for geometric reliability. Our method combines foundation model visual features with a geometric filtering strategy: Similarity maps are computed between onboarded template DINO descriptors and scene patches, and mutual correspondences are established by projecting scene patch centers to 3D and template descriptors to the object model coordinate system. Final poses are recovered via correspondence-driven RANSAC and ranked using a weighted geometric alignment metric that jointly accounts for reprojection consistency and spatial support, improving robustness to noise, clutter, and partial visibility. Geo6DPose achieves sub-second inference on a single commodity GPU while matching the average recall of significantly larger zero-shot baselines (53.7 AR, 1.08 FPS). It requires no training, fine-tuning, or network access, and remains compatible with evolving foundation backbones, advancing practical, fully local 6D perception for robotic deployment.
- Abstract(参考訳): ゼロショット6Dオブジェクトのポーズ推定の最近の進歩は、主に大規模モデルとクラウドベースの推論によって進められている。
しかしながら、これらのアプローチは、高レイテンシ、高エネルギー消費、接続性、コスト、データガバナンスに関連するデプロイメントリスクをもたらすことが多い。
ゼロショット6Dポーズ推定のための軽量で完全ローカルでトレーニング不要なパイプラインであるGeo6DPoseを導入し、幾何学的信頼性のためにモデルスケールを交換する。
本手法は,基本モデルの視覚特徴と幾何学的フィルタリング戦略を組み合わせ,DINOデクリプタとシーンパッチ間の類似性マップを計算し,シーンパッチセンターをオブジェクトモデル座標系に3Dおよびテンプレートデクリプタに投影することで相互対応性を確立する。
最終的なポーズは、通信駆動RANSACを介して回収され、重み付けされた幾何アライメントメトリックを使用してランク付けされる。
Geo6DPoseは、非常に大きなゼロショットベースライン(53.7 AR, 1.08 FPS)の平均リコールと一致しながら、単一のコモディティGPU上でのサブ秒推論を実現する。
トレーニング、微調整、ネットワークアクセスは必要とせず、進化を続ける基盤のバックボーンと互換性を持ち、ロボット展開のための実用的で完全にローカルな6D知覚を前進させる。
関連論文リスト
- OPFormer: Object Pose Estimation leveraging foundation model with geometric encoding [2.1987601456703474]
オブジェクト検出とポーズ推定をシームレスに統合する統合されたエンドツーエンドフレームワークを導入する。
当システムではまずCNOS検出器を用いて対象物体のローカライズを行う。
検出毎に、新しいポーズ推定モジュールOPFormerが正確な6Dポーズを推測する。
論文 参考訳(メタデータ) (2025-11-16T14:19:52Z) - Beyond 'Templates': Category-Agnostic Object Pose, Size, and Shape Estimation from a Single View [69.6117755984012]
物体の6Dポーズ、サイズ、形状を視覚入力から推定することは、コンピュータビジョンの基本的な問題である。
一つのRGB-D画像から6次元のポーズ,サイズ,密な形状を同時に予測する統合されたカテゴリ非依存フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T17:49:15Z) - CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。
そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。
我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-15T14:30:26Z) - Novel Object 6D Pose Estimation with a Single Reference View [51.61766126145154]
既存のオブジェクト6Dのポーズ推定手法はCADモデルや高密度参照ビューに依存するのが一般的である。
単一参照に基づく新しいオブジェクト6D(SinRef-6D)のポーズ推定法を提案する。
私たちのキーとなるアイデアは、共通座標系において、ポイントワイドアライメントを反復的に確立することです。
論文 参考訳(メタデータ) (2025-03-07T17:00:41Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - Category-Level 6D Object Pose Estimation via Cascaded Relation and
Recurrent Reconstruction Networks [22.627704070200863]
カテゴリーレベルの6Dポーズ推定は、ロボット操作や拡張現実といった多くのシナリオに不可欠である。
カテゴリレベルの6次元ポーズ推定をカスケード関係と再帰的再構成ネットワークを用いて高精度に行う。
我々の手法は最新の最先端のSPDを4.9%、CAMERA25データセットで17.7%で上回る。
論文 参考訳(メタデータ) (2021-08-19T15:46:52Z) - Visual SLAM with Graph-Cut Optimized Multi-Plane Reconstruction [11.215334675788952]
本稿では,インスタンス平面セグメンテーションネットワークからのキューを用いたポーズ推定とマッピングを改善する意味平面SLAMシステムを提案する。
メインストリームのアプローチはRGB-Dセンサーを使用するが、そのようなシステムを備えた単眼カメラを使うことは、ロバストデータアソシエーションや正確な幾何モデルフィッティングといった課題に直面している。
論文 参考訳(メタデータ) (2021-08-09T18:16:08Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。