論文の概要: SCOPE: Semantic Conditioning for Sim2Real Category-Level Object Pose Estimation in Robotics
- arxiv url: http://arxiv.org/abs/2509.24572v1
- Date: Mon, 29 Sep 2025 10:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.92223
- Title: SCOPE: Semantic Conditioning for Sim2Real Category-Level Object Pose Estimation in Robotics
- Title(参考訳): SCOPE:ロボットにおけるSim2Real Category-Level Object Poseのセマンティックコンディショニング
- Authors: Peter Hönig, Stefan Thalhammer, Jean-Baptiste Weibel, Matthias Hirschmanner, Markus Vincze,
- Abstract要約: SCOPEは拡散に基づくカテゴリーレベルのオブジェクトポーズ推定モデルである。
DINOv2の機能を連続的なセマンティックプリエントとして活用することで、個別のカテゴリラベルの必要性を解消する。
5$5cmのメートル法で31.9%の相対的な改善を達成している。
- 参考スコア(独自算出の注目度): 8.467086312715892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object manipulation requires accurate object pose estimation. In open environments, robots encounter unknown objects, which requires semantic understanding in order to generalize both to known categories and beyond. To resolve this challenge, we present SCOPE, a diffusion-based category-level object pose estimation model that eliminates the need for discrete category labels by leveraging DINOv2 features as continuous semantic priors. By combining these DINOv2 features with photorealistic training data and a noise model for point normals, we reduce the Sim2Real gap in category-level object pose estimation. Furthermore, injecting the continuous semantic priors via cross-attention enables SCOPE to learn canonicalized object coordinate systems across object instances beyond the distribution of known categories. SCOPE outperforms the current state of the art in synthetically trained category-level object pose estimation, achieving a relative improvement of 31.9\% on the 5$^\circ$5cm metric. Additional experiments on two instance-level datasets demonstrate generalization beyond known object categories, enabling grasping of unseen objects from unknown categories with a success rate of up to 100\%. Code available: https://github.com/hoenigpeter/scope.
- Abstract(参考訳): オブジェクト操作には正確なオブジェクトのポーズ推定が必要です。
オープンな環境では、ロボットは未知のオブジェクトに遭遇し、既知のカテゴリとそれ以上に一般化するために意味的理解を必要とする。
この課題を解決するために、DINOv2特徴を連続的セマンティック先行として活用することにより、離散的なカテゴリラベルの必要性を排除した拡散に基づくカテゴリレベルのオブジェクトポーズ推定モデルSCOPEを提案する。
これらのDINOv2特徴と、点正規化のためのノイズモデルを組み合わせることで、カテゴリレベルのオブジェクトポーズ推定におけるSim2Realギャップを低減する。
さらに、クロスアテンションを通して連続的なセマンティック先行を注入することで、SCOPEは既知のカテゴリの分布を超えたオブジェクトインスタンスをまたいだ標準化されたオブジェクト座標系を学習することができる。
SCOPEは、合成訓練されたカテゴリーレベルのオブジェクトのポーズ推定において現在の最先端を上回り、5$^\circ$5cmで相対的な31.9\%の改善を達成する。
2つのインスタンスレベルのデータセットに関する追加実験は、既知のオブジェクトカテゴリを超えた一般化を示し、未知のカテゴリから見えないオブジェクトを最大100\%の成功率で把握することを可能にする。
コードはhttps://github.com/hoenigpeter/scope。
関連論文リスト
- Universal Features Guided Zero-Shot Category-Level Object Pose Estimation [52.29006019352873]
カテゴリレベルの6-DOFオブジェクトのポーズ推定を実現するゼロショット手法を提案する。
提案手法は,入力RGB-D画像の2次元と3次元の普遍的特徴を利用して,意味的類似性に基づく対応性を確立する。
提案手法は,REAL275およびWild6Dベンチマークにおいて,未知のカテゴリに対して従来手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-06T08:10:13Z) - You Only Look at One: Category-Level Object Representations for Pose
Estimation From a Single Example [26.866356430469757]
所望のカテゴリから1つのオブジェクトだけを検査してカテゴリレベルのポーズ推定を行う手法を提案する。
本稿では,RGBDセンサを搭載したロボットマニピュレータを用いて,新しい物体のオンライン6次元ポーズ推定を行う。
論文 参考訳(メタデータ) (2023-05-22T01:32:24Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - On Hyperbolic Embeddings in 2D Object Detection [76.12912000278322]
双曲幾何学が対象分類空間の基盤構造に適合するかどうかを考察する。
2段階、キーポイントベース、トランスフォーマーベースオブジェクト検出アーキテクチャに双曲型分類器を組み込む。
分類空間の構造に現れる分類階級階層を観察し、分類誤差を低くし、全体的な対象検出性能を高める。
論文 参考訳(メタデータ) (2022-03-15T16:43:40Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Category-Level Articulated Object Pose Estimation [34.57672805595464]
我々はArticulation-Aware Normalized Space Hierarchy (ANCSH)を紹介する。
ANCSHは、与えられたカテゴリ内の異なる明瞭なオブジェクトに対する標準表現である。
我々は,単一深度点クラウドからANCSHを予測するPointNet++に基づくディープネットワークを開発する。
論文 参考訳(メタデータ) (2019-12-26T18:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。