論文の概要: Category-Level 3D Correspondence in Camera Space via Morphable Object Priors
- arxiv url: http://arxiv.org/abs/2605.28257v1
- Date: Wed, 27 May 2026 10:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.957725
- Title: Category-Level 3D Correspondence in Camera Space via Morphable Object Priors
- Title(参考訳): 定型物体を用いたカメラ空間におけるカテゴリーレベル3次元対応
- Authors: Leonhard Sommer, Artur Jesslen, Basavaraj Sunagad, Adam Kortylewski,
- Abstract要約: 画像から3Dオブジェクトを理解することは、ロボティクスやAR/VRアプリケーションの基本である。
本研究では,カメラ空間におけるカテゴリレベルの3D対応について検討する。
共有可能な定型オブジェクトを事前に学習することで、明示的な通信監督を伴わずに実現可能であることを示す。
- 参考スコア(独自算出の注目度): 25.509243380578692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding 3D objects from images is fundamental to robotics and AR/VR applications. While recent work has made progress in category-level pose estimation, current representations fail to capture the fine-grained semantics needed for reasoning about object parts, functions, and interactions. In this work, we study category-level 3D correspondence in camera space -- predicting, from a single image, 3D locations that remain consistent across instances within a category -- and show that it can emerge without explicit correspondence supervision by learning a shared morphable object prior. To enable research in this direction, we introduce HouseCorr3D, the first large-scale benchmark for monocular category-level 3D correspondence with 178k images across 50 household object categories, 280 unique instances, and 3D keypoint annotations directly on CAD models. Crucially, HouseCorr3D provides amodal correspondence labels for occluded regions and explicit symmetry annotations, addressing key limitations of existing datasets. We further propose Morpheus, a method that learns morphable category-level shape priors by disentangling canonical shape, deformation, and object pose. Through this shared canonical grounding, semantically meaningful 3D correspondences in camera space emerge implicitly. These emerging 3D correspondences set a new state of the art on HouseCorr3D, demonstrating that semantic 3D object understanding can arise without direct correspondence supervision. Data and code are publicly available at https://github.com/GenIntel/HouseCorr3D.
- Abstract(参考訳): 画像から3Dオブジェクトを理解することは、ロボティクスやAR/VRアプリケーションの基本である。
最近の研究では、カテゴリーレベルのポーズ推定が進んでいるが、現在の表現は、オブジェクトの部分、関数、相互作用について推論するために必要な細粒度のセマンティクスを捉えていない。
本研究では, カメラ空間におけるカテゴリレベルの3D対応性 - 単一の画像から, カテゴリ内のインスタンス間で一貫性のある3D位置を予測する -- について検討し, 事前に共有可能なオブジェクトを学習することで, 明確な対応監督なしに現れることを示す。
この方向の研究を可能にするために,本研究では,CADモデル上で,50種類の対象カテゴリ,280のユニークなインスタンス,および3Dキーポイントアノテーションを対象とする,モノラルなカテゴリレベルの3D対応のための最初の大規模ベンチマークであるHouseCorr3Dを紹介する。
重要なのは、HouseCorr3Dは、隠された領域と明示的な対称性アノテーションのためのアモーダル対応ラベルを提供し、既存のデータセットの重要な制限に対処する。
さらに,標準形状,変形,オブジェクトポーズを両立させることで,変形可能なカテゴリレベルの形状を事前に学習する手法であるMorpheusを提案する。
この共有正準接地を通して、カメラ空間における意味論的意味のある3D対応が暗黙的に現れる。
これらの新しい3D対応は、HouseCorr3Dに新たな最先端を設定し、直接の通信監督なしに意味的な3Dオブジェクト理解が実現可能であることを実証した。
データとコードはhttps://github.com/GenIntel/HouseCorr3Dで公開されている。
関連論文リスト
- Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。
我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。
Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文 参考訳(メタデータ) (2025-04-30T15:42:23Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - IST-Net: Prior-free Category-level Pose Estimation with Implicit Space
Transformation [39.6433705759858]
カテゴリーレベルの6Dポーズ推定は、特定のカテゴリから見えないオブジェクトのポーズとサイズを予測することを目的としている。
与えられたオブジェクトインスタンスの前にカテゴリ固有の3Dを明示的に適応する事前変形のおかげで、事前ベースのメソッドは大きな成功を収めた。
しかし、カテゴリー固有の先行データを取得するには、大量の3Dモデルを集める必要がある。
我々は、カメラ空間の機能を世界空間に変換するために、単純な事前自由な暗黙空間変換ネットワーク、IST-Netを導入する。
論文 参考訳(メタデータ) (2023-03-23T17:48:12Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - Topologically-Aware Deformation Fields for Single-View 3D Reconstruction [30.738926104317514]
本稿では,非整合なカテゴリ固有の画像収集から3次元オブジェクト形状と密接なオブジェクト対応を学習するための新しいフレームワークを提案する。
3次元形状は、カテゴリー固有符号距離場への変形として暗黙的に生成される。
TARSと呼ばれる我々の手法は、いくつかのデータセット上で最先端の再構築忠実性を実現する。
論文 参考訳(メタデータ) (2022-05-12T17:59:59Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - 3D Object Detection and Pose Estimation of Unseen Objects in Color
Images with Local Surface Embeddings [35.769234123059086]
本研究では, 画像中のオブジェクトの3次元ポーズを, テクスチャのないCADモデルでのみ検出し, 推定する手法を提案する。
我々のアプローチはディープラーニングと3D幾何を組み合わせており、CADモデルと入力画像とを一致させるために、局所的な3D幾何の埋め込みに依存している。
我々は,Mask-RCNNをクラスに依存しない方法で,再学習せずに新しい物体を検出できることを示す。
論文 参考訳(メタデータ) (2020-10-08T15:57:06Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。