論文の概要: Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image
- arxiv url: http://arxiv.org/abs/2504.03177v1
- Date: Fri, 04 Apr 2025 05:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:17.403996
- Title: Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image
- Title(参考訳): 単一RGBD画像からの部分レベル調音物体の再構成検出
- Authors: Yuki Kawana, Tatsuya Harada,
- Abstract要約: 本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成する,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。
私たちは、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の作業から離れています。
提案手法は, 従来の作業では処理できない様々な構成された複数インスタンスの再構築に成功し, 形状再構成や運動学推定において, 先行の作業よりも優れていた。
- 参考スコア(独自算出の注目度): 52.11275397911693
- License:
- Abstract: We propose an end-to-end trainable, cross-category method for reconstructing multiple man-made articulated objects from a single RGBD image, focusing on part-level shape reconstruction and pose and kinematics estimation. We depart from previous works that rely on learning instance-level latent space, focusing on man-made articulated objects with predefined part counts. Instead, we propose a novel alternative approach that employs part-level representation, representing instances as combinations of detected parts. While our detect-then-group approach effectively handles instances with diverse part structures and various part counts, it faces issues of false positives, varying part sizes and scales, and an increasing model size due to end-to-end training. To address these challenges, we propose 1) test-time kinematics-aware part fusion to improve detection performance while suppressing false positives, 2) anisotropic scale normalization for part shape learning to accommodate various part sizes and scales, and 3) a balancing strategy for cross-refinement between feature space and output space to improve part detection while maintaining model size. Evaluation on both synthetic and real data demonstrates that our method successfully reconstructs variously structured multiple instances that previous works cannot handle, and outperforms prior works in shape reconstruction and kinematics estimation.
- Abstract(参考訳): 本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成し,パートレベルの形状復元とポーズとキネマティックス推定に着目した,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。
我々は、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の研究から出発する。
代わりに、検出された部品の組み合わせとしてインスタンスを表現し、部分レベルの表現を用いる新しいアプローチを提案する。
検出群アプローチは多様な部分構造と様々な部分数を持つインスタンスを効果的に処理するが、偽陽性、異なる部分サイズとスケール、エンドツーエンドトレーニングによるモデルサイズの増加といった問題に直面している。
これらの課題に対処するために,我々は提案する
1) 偽陽性を抑えつつ, 検出性能を向上させるために, テストタイムキネマティクスを意識した部分融合を行った。
2【部分形状学習における異方性尺度の正規化】
3) 特徴空間と出力空間の交差分断のためのバランス戦略は, モデルサイズを維持しながら部品検出を改善する。
合成データと実データの両方で評価した結果,本手法は過去の作業では処理できない様々な構造化された複数インスタンスの再構築に成功し,形状復元や運動学推定における先行作業より優れていたことが確認された。
関連論文リスト
- Articulate your NeRF: Unsupervised articulated object modeling via conditional view synthesis [24.007950839144918]
そこで本稿では,頑健な部分を持つ明瞭な物体のポーズと部分分割を学習するための教師なしの手法を提案する。
本手法は,最初の観測から暗黙のモデルを用いて物体の形状と外観を学習する。
論文 参考訳(メタデータ) (2024-06-24T13:13:31Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Learning to Complete Object Shapes for Object-level Mapping in Dynamic
Scenes [30.500198859451434]
本研究では,動的シーンにおけるオブジェクトの分割,追跡,再構築を同時に行うオブジェクトレベルのマッピングシステムを提案する。
さらに、深度入力とカテゴリレベルの前の形状からの再構成を条件にすることで、完全なジオメトリを予測し、完成させることができる。
実世界の合成シーケンスと実世界のシーケンスの両方で定量的に定性的にテストすることで,その有効性を評価する。
論文 参考訳(メタデータ) (2022-08-09T22:56:33Z) - ANISE: Assembly-based Neural Implicit Surface rEconstruction [12.745433575962842]
本稿では,部分的な観測から3次元形状を再構成するANISEについて述べる。
形状は神経暗黙の関数の集合として定式化され、それぞれが異なる部分のインスタンスを表す。
本研究では,部品表現を暗黙の関数に復号化して再構成を行う場合,画像とスパース点の雲から最先端の部品認識再構成結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-27T00:01:40Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。