論文の概要: Accurate and efficient zero-shot 6D pose estimation with frozen foundation models
- arxiv url: http://arxiv.org/abs/2506.09784v1
- Date: Wed, 11 Jun 2025 14:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.049227
- Title: Accurate and efficient zero-shot 6D pose estimation with frozen foundation models
- Title(参考訳): 凍結基礎モデルによる高精度で効率的なゼロショット6Dポーズ推定
- Authors: Andrea Caraffa, Davide Boscaini, Fabio Poiesi,
- Abstract要約: FreeZeV2は、無関係なデータに基づいて事前学習された幾何学的および視覚的基礎モデルを活用することにより、未確認オブジェクトへの強力な一般化を実現する訓練不要の手法である。
我々は,BOPベンチマークの7つのコアデータセット上でFreeZeV2を評価する。
- 参考スコア(独自算出の注目度): 6.286106048324139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the 6D pose of objects from RGBD data is a fundamental problem in computer vision, with applications in robotics and augmented reality. A key challenge is achieving generalization to novel objects that were not seen during training. Most existing approaches address this by scaling up training on synthetic data tailored to the task, a process that demands substantial computational resources. But is task-specific training really necessary for accurate and efficient 6D pose estimation of novel objects? To answer No!, we introduce FreeZeV2, the second generation of FreeZe: a training-free method that achieves strong generalization to unseen objects by leveraging geometric and vision foundation models pre-trained on unrelated data. FreeZeV2 improves both accuracy and efficiency over FreeZe through three key contributions: (i) a sparse feature extraction strategy that reduces inference-time computation without sacrificing accuracy; (ii) a feature-aware scoring mechanism that improves both pose selection during RANSAC-based 3D registration and the final ranking of pose candidates; and (iii) a modular design that supports ensembles of instance segmentation models, increasing robustness to segmentation masks errors. We evaluate FreeZeV2 on the seven core datasets of the BOP Benchmark, where it establishes a new state-of-the-art in 6D pose estimation of unseen objects. When using the same segmentation masks, FreeZeV2 achieves a remarkable 8x speedup over FreeZe while also improving accuracy by 5%. When using ensembles of segmentation models, FreeZeV2 gains an additional 8% in accuracy while still running 2.5x faster than FreeZe. FreeZeV2 was awarded Best Overall Method at the BOP Challenge 2024.
- Abstract(参考訳): RGBDデータからオブジェクトの6Dポーズを推定することは、ロボット工学や拡張現実におけるコンピュータビジョンの基本的な問題である。
重要な課題は、トレーニング中に見られなかった新しいオブジェクトへの一般化を達成することである。
既存のほとんどのアプローチでは、タスクに適した合成データのトレーニングをスケールアップすることで、この問題に対処している。
しかし、新しい物体の正確かつ効率的な6次元ポーズ推定には、タスク固有のトレーニングが本当に必要か?
第2世代のFreeZeV2は、幾何学的および視覚的基礎モデルを利用して、非表示オブジェクトへの強力な一般化を実現する訓練自由な手法である。
FreeZeV2は,3つの重要なコントリビューションを通じて,FreeZeよりも正確性と効率性を向上する。
一 精度を犠牲にすることなく、推論時間計算の少ない特徴抽出戦略
二 RANSACに基づく3D登録におけるポーズ選択と、ポーズ候補の最終的なランキングの両方を改善する特徴認識スコアリング機構
3) インスタンスセグメンテーションモデルのアンサンブルをサポートし、セグメンテーションマスクのエラーに対する堅牢性を高めるモジュール設計。
我々は,BOPベンチマークの7つのコアデータセット上でFreeZeV2を評価する。
同じセグメンテーションマスクを使用する場合、FreeZeV2はFreeZeよりも8倍のスピードアップを達成すると同時に、精度を5%向上させる。
セグメンテーションモデルのアンサンブルを使用する場合、FreeZeV2は、FreeZeよりも2.5倍速く動作しながら、8%の精度が向上する。
FreeZeV2はBOP Challenge 2024でベスト総合メソッドを受賞した。
関連論文リスト
- Any6D: Model-free 6D Pose Estimation of Novel Objects [76.30057578269668]
我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。
新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。
提案手法を5つの挑戦的データセットで評価する。
論文 参考訳(メタデータ) (2025-03-24T13:46:21Z) - 6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting [7.7145084897748974]
1台のRGB-Dカメラで6Dオブジェクトのポーズを推定・追跡する新しい手法である6DOPE-GSを提案する。
その結果,6DOPE-GSはモデルレス同時ポーズトラッキングと再構築のための最先端ベースラインの性能と一致していることがわかった。
また,実世界の環境下での動的物体追跡と再構成のための手法の適合性を実証した。
論文 参考訳(メタデータ) (2024-12-02T14:32:19Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models [5.754251195342313]
私たちは、特定のデータでトレーニングすることなく、同じタスクに取り組む方法を示します。
我々は、事前学習された幾何学的および視覚的基礎モデルの能力を利用する新しいソリューションFreeZeを提案する。
FreeZeは、合成6Dポーズ推定データで広く訓練されたライバルを含む、最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-01T22:00:14Z) - ZS6D: Zero-shot 6D Object Pose Estimation using Vision Transformers [9.899633398596672]
ゼロショット新規オブジェクト6Dのポーズ推定にZS6Dを導入する。
事前訓練された視覚変換器(ViT)を用いて抽出された視覚ディスクリプタは、レンダリングテンプレートのマッチングに使用される。
LMO、YCBV、TLESSデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-09-21T11:53:01Z) - DCL-Net: Deep Correspondence Learning Network for 6D Pose Estimation [43.963630959349885]
本稿では,DCL-Netとして短縮された直接6次元オブジェクトポーズ推定のためのディープ対応学習ネットワークを提案する。
DCL-Netは,YCB-Video,LineMOD,Oclussion-LineMODを含む3つのベンチマークデータセットにおいて,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:04:40Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z) - se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image
Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。
本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。
提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文 参考訳(メタデータ) (2020-07-27T21:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。