論文の概要: SCAPO: Self-Supervised Category-Level Articulated Pose Estimation from a Single 3D Observation
- arxiv url: http://arxiv.org/abs/2606.01940v1
- Date: Mon, 01 Jun 2026 09:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.678697
- Title: SCAPO: Self-Supervised Category-Level Articulated Pose Estimation from a Single 3D Observation
- Title(参考訳): SCAPO: 単一3次元観測による自己教師付きカテゴリーレベルArticulated Poseの推定
- Authors: Can Zhang, Gim Hee Lee,
- Abstract要約: 本稿では,1つのRGB-D観測から標準幾何,剛部分セグメンテーション,関節ピボット,軸,調音状態を推定する自己教師型フレームワークを提案する。
合成および実調音オブジェクトデータセットの実験により、SCAPOは、一貫した部分構造と正確な調音パラメータを復元し、全ての自監督ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 54.98864436812187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for category-level object articulation from a single 3D observation often rely on dense supervision, multi-frame inputs, or CAD templates, and still struggle to disentangle geometry from articulation or to recover explicit joint parameters. We propose SCAPO, a self-supervised framework that estimates canonical geometry, rigid part segmentation, and joint pivots, axes, and articulation states from a single RGB-D observation without ground-truth labels or category-specific models. Our SCAPO first uses an SE(3)-equivariant vector-neuron autoencoder to factor out global pose and align diverse instances into a shared canonical space. On this aligned shape, a joint-aware blend-skinning module is then designed to model part motion. We learn this representation through cycle reconstruction between observed and canonical shapes and cross-space alignment with a learnable canonical template that decouples shared category geometry from instance-specific residual shape. Experiments on synthetic and real articulated-object datasets show that our SCAPO recovers consistent part structure and accurate articulation parameters and outperforms all self-supervised baselines.
- Abstract(参考訳): 単一の3次元観察から既存のカテゴリーレベルのオブジェクトの調音法は、しばしば密集した監督、多フレーム入力、CADテンプレートに依存しており、幾何を調音から切り離すことや、明示的な関節パラメータの復元に苦慮している。
そこで本研究では,標準形状,剛部セグメンテーション,関節ピボット,軸,調音状態を1つのRGB-D観測から推定する自己教師型フレームワークSCAPOを提案する。
SCAPOはまず,SE(3)-同変ベクトル-ニューロンオートエンコーダを用いて,グローバルなポーズを判断し,多様なインスタンスを共有標準空間に整列させる。
このアライメント形状では、ジョイント・アウェア・ブレンド・スキニング・モジュールが部品の動きをモデル化するように設計される。
この表現は、観測された形状と標準形状の間のサイクル再構成と、インスタンス固有の残留形状からカテゴリー幾何学を分離する学習可能な標準テンプレートとの交叉アライメントを通して学習する。
合成および実調音オブジェクトデータセットの実験により、SCAPOは、一貫した部分構造と正確な調音パラメータを復元し、全ての自監督ベースラインを上回ります。
関連論文リスト
- Geometry-Guided Modeling of Foundation Features Enables Generalizable Object Shape Deformation Learning [35.877851584795906]
対象の観測値にマッチするカテゴリレベルの形状テンプレートを明示的に変形させることで、3Dオブジェクトを再構成する一般化可能な変形学習フレームワークを提案する。
提案手法は, 形状の多様性と多様な視点の取り扱いにおいて, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-05-28T09:22:57Z) - SEMAGIC: Learning Semantically Consistent Deformable 3D Representations from In-the-Wild Images [32.19024127550901]
ワンビューインザミルド画像から変形可能な3Dオブジェクトモデルを学習することで、監督なしで印象的な3D形状復元が可能になった。
本稿では,一眼レフ画像から意味的に一貫した変形可能な3次元表現を学習するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-27T04:18:06Z) - Object Pose Transformer: Unifying Unseen Object Pose Estimation [54.20344997573707]
モデルなしのオブジェクトポーズ推定を未知のインスタンスで学習することは、3Dビジョンにおける根本的な課題である。
我々のチームは、RGB入力から深度、ポイントマップ、カメラパラメータ、正規化されたオブジェクト座標を共同で予測します。
当社はカメラ非依存で、カメラ固有の知識をオンザフライで学習し、メトリックスケールリカバリのためのオプションの深度入力をサポートします。
論文 参考訳(メタデータ) (2026-03-24T16:04:16Z) - OPFormer: Object Pose Estimation leveraging foundation model with geometric encoding [2.1987601456703474]
オブジェクト検出とポーズ推定をシームレスに統合する統合されたエンドツーエンドフレームワークを導入する。
当システムではまずCNOS検出器を用いて対象物体のローカライズを行う。
検出毎に、新しいポーズ推定モジュールOPFormerが正確な6Dポーズを推測する。
論文 参考訳(メタデータ) (2025-11-16T14:19:52Z) - Beyond 'Templates': Category-Agnostic Object Pose, Size, and Shape Estimation from a Single View [69.6117755984012]
物体の6Dポーズ、サイズ、形状を視覚入力から推定することは、コンピュータビジョンの基本的な問題である。
一つのRGB-D画像から6次元のポーズ,サイズ,密な形状を同時に予測する統合されたカテゴリ非依存フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T17:49:15Z) - Self-Supervised Multi-Part Articulated Objects Modeling via Deformable Gaussian Splatting and Progressive Primitive Segmentation [23.18517560629462]
DeGSSは,物体を変形可能な3次元ガウス場として符号化し,幾何学,外観,動きを1つのコンパクト表現に埋め込む統一フレームワークである。
一般化とリアリズムを評価するために、合成PartNet-Mobilityベンチマークを拡張し、RGBキャプチャと正確にリバースエンジニアリングされた3Dモデルを組み合わせたリアル・トゥ・シムデータセットRS-Artをリリースする。
論文 参考訳(メタデータ) (2025-06-11T12:32:16Z) - KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation [87.23575166061413]
KP-RED は KeyPoint 主導の Retrieval and deformation フレームワークである。
オブジェクトスキャンを入力として、最も幾何学的に類似したCADモデルを共同で検索し、変形させる。
論文 参考訳(メタデータ) (2024-03-15T08:44:56Z) - ShapeMatcher: Self-Supervised Joint Shape Canonicalization,
Segmentation, Retrieval and Deformation [47.94499636697971]
本稿では,関節形状の正準化,分節化,検索,変形を行うための自己教師型学習フレームワークであるShapeMatcherを提案する。
ShapeMakerの重要な洞察は、標準化、セグメンテーション、検索、変形という4つの高関連プロセスの同時トレーニングである。
論文 参考訳(メタデータ) (2023-11-18T15:44:57Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。