論文の概要: OSCAR: Open-Set CAD Retrieval from a Language Prompt and a Single Image
- arxiv url: http://arxiv.org/abs/2601.07333v1
- Date: Mon, 12 Jan 2026 08:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.299155
- Title: OSCAR: Open-Set CAD Retrieval from a Language Prompt and a Single Image
- Title(参考訳): OSCAR: 言語プロンプトと単一画像からのオープンセットCAD検索
- Authors: Tessa Pulli, Jean-Baptiste Weibel, Peter Hönig, Matthias Hirschmanner, Markus Vincze, Andreas Holzinger,
- Abstract要約: 言語プロンプトと単一画像(OSCAR)からオープンセットCAD検索を導入する。
OSCARはラベルのない3Dオブジェクトデータベースから一致するオブジェクトモデルを取得する。
我々は,YCB-Vオブジェクトデータセット上でのオブジェクト検索において,OSCARの平均精度が90.48%であることを示す。
- 参考スコア(独自算出の注目度): 7.903776990851827
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: 6D object pose estimation plays a crucial role in scene understanding for applications such as robotics and augmented reality. To support the needs of ever-changing object sets in such context, modern zero-shot object pose estimators were developed to not require object-specific training but only rely on CAD models. Such models are hard to obtain once deployed, and a continuously changing and growing set of objects makes it harder to reliably identify the instance model of interest. To address this challenge, we introduce an Open-Set CAD Retrieval from a Language Prompt and a Single Image (OSCAR), a novel training-free method that retrieves a matching object model from an unlabeled 3D object database. During onboarding, OSCAR generates multi-view renderings of database models and annotates them with descriptive captions using an image captioning model. At inference, GroundedSAM detects the queried object in the input image, and multi-modal embeddings are computed for both the Region-of-Interest and the database captions. OSCAR employs a two-stage retrieval: text-based filtering using CLIP identifies candidate models, followed by image-based refinement using DINOv2 to select the most visually similar object. In our experiments we demonstrate that OSCAR outperforms all state-of-the-art methods on the cross-domain 3D model retrieval benchmark MI3DOR. Furthermore, we demonstrate OSCAR's direct applicability in automating object model sourcing for 6D object pose estimation. We propose using the most similar object model for pose estimation if the exact instance is not available and show that OSCAR achieves an average precision of 90.48\% during object retrieval on the YCB-V object dataset. Moreover, we demonstrate that the most similar object model can be utilized for pose estimation using Megapose achieving better results than a reconstruction-based approach.
- Abstract(参考訳): 6Dオブジェクトのポーズ推定は,ロボット工学や拡張現実といった応用におけるシーン理解において重要な役割を担っている。
このような状況下で常に変化するオブジェクトセットの必要性をサポートするため、現代のゼロショットオブジェクトポーズ推定器は、オブジェクト固有のトレーニングを必要とせずCADモデルにのみ依存するように開発された。
このようなモデルは一度デプロイされると入手することは困難であり、継続的に変化するオブジェクトの集合は、関心のあるインスタンスモデルを確実に識別することを困難にします。
この課題に対処するために,Language Prompt と Single Image (OSCAR) から Open-Set CAD Retrieval を導入する。
オンボーディング中、OSCARはデータベースモデルのマルチビューレンダリングを生成し、画像キャプションモデルを使用して記述的なキャプションで注釈付けする。
推測時に、GroundedSAMは入力画像中のクエリ対象を検出し、マルチモーダル埋め込みは、Rerea-of-Interestとデータベースキャプションの両方に対して計算される。
テキストベースのCLIPを用いたフィルタリングは候補モデルを識別し、次にDINOv2を使って画像ベースの改良を行い、最も視覚的に類似したオブジェクトを選択する。
実験では、OSCARは、クロスドメイン3Dモデル検索ベンチマークMI3DORにおいて、最先端の手法をすべて上回っていることを実証した。
さらに,OSCARの6次元オブジェクトポーズ推定のためのオブジェクトモデルソーシングの自動化への適用性を示す。
そこで本研究では,YCB-Vオブジェクトデータセット上でのオブジェクト検索において,OSCARが平均精度90.48\%を達成することを示すために,最も類似したオブジェクトモデルを用いてポーズ推定を行う。
さらに,最も類似したオブジェクトモデルをMegaposeを用いたポーズ推定に利用し,再構成手法よりも優れた結果が得られることを示す。
関連論文リスト
- One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。
本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。
複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文 参考訳(メタデータ) (2025-05-07T03:54:59Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - NOPE: Novel Object Pose Estimation from a Single Image [67.11073133072527]
本稿では,新しいオブジェクトの1つのイメージを入力として取り込んで,オブジェクトの3Dモデルに関する事前知識を必要とせずに,新しいイメージにおけるオブジェクトの相対的なポーズを予測するアプローチを提案する。
我々は、オブジェクトを取り巻く視点に対する識別的埋め込みを直接予測するモデルを訓練することで、これを実現する。
この予測は単純なU-Netアーキテクチャを用いて行われ、要求されたポーズに注意を向け、条件を定め、非常に高速な推論をもたらす。
論文 参考訳(メタデータ) (2023-03-23T18:55:43Z) - OnePose++: Keypoint-Free One-Shot Object Pose Estimation without CAD
Models [51.68715543630427]
OnePoseは繰り返し可能なイメージキーポイントの検出に依存しているので、低テクスチャオブジェクトで失敗する傾向がある。
繰り返し可能なキーポイント検出の必要性を取り除くために,キーポイントフリーポーズ推定パイプラインを提案する。
2D-3Dマッチングネットワークは、クエリ画像と再構成されたポイントクラウドモデルとの間の2D-3D対応を直接確立する。
論文 参考訳(メタデータ) (2023-01-18T17:47:13Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - OnePose: One-Shot Object Pose Estimation without CAD Models [30.307122037051126]
OnePoseはCADモデルに依存しておらず、インスタンスやカテゴリ固有のネットワークトレーニングなしで任意のカテゴリのオブジェクトを処理できる。
OnePoseは視覚的なローカライゼーションからアイデアを導き、オブジェクトのスパースSfMモデルを構築するために、オブジェクトの単純なRGBビデオスキャンしか必要としない。
既存の視覚的ローカライゼーション手法の低速な実行を緩和するため,クエリ画像中の2D関心点とSfMモデルの3Dポイントとを直接マッチングするグラフアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。