論文の概要: You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2508.14965v1
- Date: Wed, 20 Aug 2025 18:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.050545
- Title: You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation
- Title(参考訳): モノクロRGBのカテゴリーレベル9Dマルチオブジェクト・ポーズ推定のためのミニマリスト検出変換器
- Authors: Hakjin Lee, Junghoon Seo, Jaehoon Sim,
- Abstract要約: YOPOは、カテゴリレベルの9-DoF推定を2D検出の自然な拡張として扱う、単一ステージのクエリベースのフレームワークである。
YOPOは3つのベンチマークでその技術の新たな状態を設定する。
- 参考スコア(独自算出の注目度): 4.667226479820119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately recovering the full 9-DoF pose of unseen instances within specific categories from a single RGB image remains a core challenge for robotics and automation. Most existing solutions still rely on pseudo-depth, CAD models, or multi-stage cascades that separate 2D detection from pose estimation. Motivated by the need for a simpler, RGB-only alternative that learns directly at the category level, we revisit a longstanding question: Can object detection and 9-DoF pose estimation be unified with high performance, without any additional data? We show that they can with our method, YOPO, a single-stage, query-based framework that treats category-level 9-DoF estimation as a natural extension of 2D detection. YOPO augments a transformer detector with a lightweight pose head, a bounding-box-conditioned translation module, and a 6D-aware Hungarian matching cost. The model is trained end-to-end only with RGB images and category-level pose labels. Despite its minimalist design, YOPO sets a new state of the art on three benchmarks. On the REAL275 dataset, it achieves 79.6% $\rm{IoU}_{50}$ and 54.1% under the $10^\circ$$10{\rm{cm}}$ metric, surpassing prior RGB-only methods and closing much of the gap to RGB-D systems. The code, models, and additional qualitative results can be found on our project.
- Abstract(参考訳): 単一のRGBイメージから、特定のカテゴリ内の見えないインスタンスの完全な9-DoFのポーズを正確に復元することは、ロボティクスと自動化にとって依然として重要な課題である。
既存のソリューションの多くは、ポーズ推定から2D検出を分離する擬似深度、CADモデル、多段階カスケードに依存している。
オブジェクト検出と9-DoFのポーズ推定は、余分なデータなしでハイパフォーマンスで統一できるだろうか?
提案手法は,カテゴリレベルの9-DoF推定を2次元検出の自然な拡張として扱う,単一ステージのクエリベースのフレームワークであるYOPOで実現可能であることを示す。
YOPOは、軽量のポーズヘッド、バウンディングボックス付き翻訳モジュール、ハンガリーの6D対応マッチングコストでトランスフォーマー検出器を増強する。
モデルは、RGBイメージとカテゴリレベルのポーズラベルのみで、エンドツーエンドでトレーニングされている。
最小限の設計にもかかわらず、YOPOは3つのベンチマークで新しい最先端のベンチマークを設定できる。
REAL275データセットでは、79.6%$\rm{IoU}_{50}$と54.1%を10^\circ$10{\rm{cm}}$で達成し、以前のRGBのみの手法を超え、RGB-Dシステムとのギャップの多くを埋める。
コード、モデル、その他の質的な結果は、私たちのプロジェクトにあります。
関連論文リスト
- Unified Category-Level Object Detection and Pose Estimation from RGB Images using 3D Prototypes [5.224479258519442]
RGB画像の1つのフレームワークに検出とポーズ推定を統合する統一モデルを導入する。
提案手法は,REAL275におけるRGBカテゴリレベルのポーズ推定における最先端結果を実現する。
論文 参考訳(メタデータ) (2025-08-04T07:57:39Z) - One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。
本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。
複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文 参考訳(メタデータ) (2025-05-07T03:54:59Z) - MonoDiff9D: Monocular Category-Level 9D Object Pose Estimation via Diffusion Model [34.52439917115497]
拡散型単眼のカテゴリーレベル9Dオブジェクトポーズ生成法MonoDiff9Dを提案する。
まず、モノクロ画像からDINOv2を介して粗い深さをゼロショットで推定し、点雲に変換する。
次に、点雲のグローバルな特徴と入力画像とを融合させ、融合した特徴と符号化された時間ステップを使ってMonoDiff9Dを条件付けします。
論文 参考訳(メタデータ) (2025-04-14T17:21:10Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - Single-stage Keypoint-based Category-level Object Pose Estimation from
an RGB Image [27.234658117816103]
カテゴリレベルのオブジェクトポーズ推定のための,単一段階のキーポイントに基づくアプローチを提案する。
提案ネットワークは2次元オブジェクト検出を行い、2次元キーポイントを検出し、6-DoFのポーズを推定し、相対的に有界な立方体次元を回帰する。
我々は,3次元IoU測定値における最先端の手法よりも優れた,挑戦的なObjectronベンチマークに関する広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-09-13T17:55:00Z) - Wide-Depth-Range 6D Object Pose Estimation in Space [124.94794113264194]
宇宙での6Dポーズ推定は、地上環境では一般的に遭遇しないユニークな課題を引き起こします。
最も顕著な違いの1つは、大気の散乱の欠如であり、物体を遠くから見えるようにします。
本稿では,単一段階の階層型エンドツーエンドトレーニングネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T08:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。