論文の概要: ObPose: Leveraging Canonical Pose for Object-Centric Scene Inference in
3D
- arxiv url: http://arxiv.org/abs/2206.03591v1
- Date: Tue, 7 Jun 2022 21:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:25:47.855156
- Title: ObPose: Leveraging Canonical Pose for Object-Centric Scene Inference in
3D
- Title(参考訳): obpose: 3dでオブジェクト中心のシーン推論に標準的なポーズを活用する
- Authors: Yizhe Wu, Oiwi Parker Jones, Ingmar Posner
- Abstract要約: 我々は、RGB-Dビデオから3Dオブジェクトを教師なしで分割することを学ぶ、教師なしオブジェクト中心生成モデルObPoseを提案する。
2D表現学習における先行技術に触発されたObPoseは、対象位置(場所)と外見(場所)情報を別々に符号化して、分解された潜在空間を考える。
ObPoseは、現在の最先端の3Dシーン推論よりも優れています。
- 参考スコア(独自算出の注目度): 21.700203922407496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ObPose, an unsupervised object-centric generative model that
learns to segment 3D objects from RGB-D video in an unsupervised manner.
Inspired by prior art in 2D representation learning, ObPose considers a
factorised latent space, separately encoding object-wise location (where) and
appearance (what) information. In particular, ObPose leverages an object's
canonical pose, defined via a minimum volume principle, as a novel inductive
bias for learning the where component. To achieve this, we propose an
efficient, voxelised approximation approach to recover the object shape
directly from a neural radiance field (NeRF). As a consequence, ObPose models
scenes as compositions of NeRFs representing individual objects. When evaluated
on the YCB dataset for unsupervised scene segmentation, ObPose outperforms the
current state-of-the-art in 3D scene inference (ObSuRF) by a significant margin
in terms of segmentation quality for both video inputs as well as for
multi-view static scenes. In addition, the design choices made in the ObPose
encoder are validated with relevant ablations.
- Abstract(参考訳): 我々は、RGB-Dビデオから3Dオブジェクトを教師なしで分割することを学ぶ、教師なしオブジェクト中心生成モデルObPoseを提案する。
2D表現学習における先行技術に触発されたObPoseは、対象位置(場所)と外見(場所)情報を別々に符号化して、分解された潜在空間を考える。
特にobposeは、最小体積原理によって定義される対象の標準的姿勢を、where成分を学ぶための新しい帰納的バイアスとして利用する。
そこで本研究では,神経放射場(nerf)から直接物体形状を復元する効率的なボクセル近似手法を提案する。
その結果、ObPoseはシーンを個々のオブジェクトを表すNeRFの合成としてモデル化する。
教師なしシーンセグメンテーションのためのYCBデータセットで評価すると、ObPoseは、ビデオ入力とマルチビュー静的シーンの両方のセグメンテーション品質において、現在の3Dシーン推論(ObSuRF)よりもかなり優れている。
さらに、ObPoseエンコーダの設計選択は、関連する改善によって検証される。
関連論文リスト
- LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Towards High-Fidelity Single-view Holistic Reconstruction of Indoor
Scenes [50.317223783035075]
単視点画像から総合的な3次元屋内シーンを再構築するための新しい枠組みを提案する。
詳細なオブジェクト再構成のためのインスタンス整列型暗黙関数(InstPIFu)を提案する。
私たちのコードとモデルは公開されます。
論文 参考訳(メタデータ) (2022-07-18T14:54:57Z) - 3DP3: 3D Scene Perception via Probabilistic Programming [28.491817202574932]
3DP3は、オブジェクト、シーン、イメージの構造化生成モデルで推論を使用する逆グラフィックのためのフレームワークである。
その結果,3DP3は深層学習ベースラインよりも実画像から6DoFオブジェクトのポーズ推定の方が精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-10-30T19:10:34Z) - Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ
Rendering from a Single Image [58.69732754597448]
椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか?
単一画像中の調音対象を抽出・操作するための自動アプローチを考案する。
論文 参考訳(メタデータ) (2021-08-05T16:20:12Z) - DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale
Consistency [43.09728251735362]
2Dオブジェクト境界ボックスから6DoFオブジェクトポーズを得るための2ステップポーズ推定フレームワークを提案する。
最初のステップでは、フレームワークはオブジェクトを実際のデータと合成データからセグメンテーションすることを学ぶ。
第2のステップでは,dsc-posenetという,デュアルスケールなポーズ推定ネットワークを設計する。
提案手法は,合成データに基づいて訓練した最先端のモデルよりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2021-04-08T10:19:35Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。