論文の概要: ObPose: Leveraging Pose for Object-Centric Scene Inference and
Generation in 3D
- arxiv url: http://arxiv.org/abs/2206.03591v3
- Date: Fri, 9 Jun 2023 20:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:47:26.206988
- Title: ObPose: Leveraging Pose for Object-Centric Scene Inference and
Generation in 3D
- Title(参考訳): ObPose: オブジェクト中心のシーン推論と生成のための3Dモデル
- Authors: Yizhe Wu, Oiwi Parker Jones, Ingmar Posner
- Abstract要約: ObPoseは教師なしのオブジェクト中心の推論と生成モデルである。
RGB-Dシーンから3D構造化された潜在表現を学習する。
ObPoseは、YCB、MultiShapeNet、CLEVRデータセットで定量的に評価される。
- 参考スコア(独自算出の注目度): 21.700203922407496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ObPose, an unsupervised object-centric inference and generation
model which learns 3D-structured latent representations from RGB-D scenes.
Inspired by prior art in 2D representation learning, ObPose considers a
factorised latent space, separately encoding object location (where) and
appearance (what). ObPose further leverages an object's pose (i.e. location and
orientation), defined via a minimum volume principle, as a novel inductive bias
for learning the where component. To achieve this, we propose an efficient,
voxelised approximation approach to recover the object shape directly from a
neural radiance field (NeRF). As a consequence, ObPose models each scene as a
composition of NeRFs, richly representing individual objects. To evaluate the
quality of the learned representations, ObPose is evaluated quantitatively on
the YCB, MultiShapeNet, and CLEVR datatasets for unsupervised scene
segmentation, outperforming the current state-of-the-art in 3D scene inference
(ObSuRF) by a significant margin. Generative results provide qualitative
demonstration that the same ObPose model can both generate novel scenes and
flexibly edit the objects in them. These capacities again reflect the quality
of the learned latents and the benefits of disentangling the where and what
components of a scene. Key design choices made in the ObPose encoder are
validated with ablations.
- Abstract(参考訳): 本稿では,RGB-Dシーンから3次元構造化された潜在表現を学習するオブジェクト中心推論・生成モデルObPoseを提案する。
2次元表現学習の先行技術に着想を得て、obposeは因子化された潜在空間を考え、対象の位置(場所)と外観(場所)を別々に符号化する。
obposeはさらに、最小体積原理によって定義されるオブジェクトのポーズ(すなわち位置と方向)を、whereコンポーネントを学ぶための新しい帰納的バイアスとして活用する。
そこで本研究では,神経放射場(nerf)から直接物体形状を復元する効率的なボクセル近似手法を提案する。
その結果、ObPoseは各シーンをNeRFの合成としてモデル化し、個々のオブジェクトを豊かに表現する。
学習した表現の質を評価するために,YCB,MultiShapeNet,CLEVRの3次元シーンセグメンテーションにおけるデータセットを定量的に評価し,現状の3Dシーン推論(ObSuRF)を著しく上回った。
生成結果は、同じObPoseモデルが新しいシーンを生成し、その中のオブジェクトを柔軟に編集できるという質的なデモを提供する。
これらの能力は、学習した潜伏者の質と、シーンのどの構成要素と場所を遠ざける利点を再び反映している。
obposeエンコーダで鍵となる設計選択はアブレーションによって検証される。
関連論文リスト
- LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Towards High-Fidelity Single-view Holistic Reconstruction of Indoor
Scenes [50.317223783035075]
単視点画像から総合的な3次元屋内シーンを再構築するための新しい枠組みを提案する。
詳細なオブジェクト再構成のためのインスタンス整列型暗黙関数(InstPIFu)を提案する。
私たちのコードとモデルは公開されます。
論文 参考訳(メタデータ) (2022-07-18T14:54:57Z) - 3DP3: 3D Scene Perception via Probabilistic Programming [28.491817202574932]
3DP3は、オブジェクト、シーン、イメージの構造化生成モデルで推論を使用する逆グラフィックのためのフレームワークである。
その結果,3DP3は深層学習ベースラインよりも実画像から6DoFオブジェクトのポーズ推定の方が精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-10-30T19:10:34Z) - Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ
Rendering from a Single Image [58.69732754597448]
椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか?
単一画像中の調音対象を抽出・操作するための自動アプローチを考案する。
論文 参考訳(メタデータ) (2021-08-05T16:20:12Z) - DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale
Consistency [43.09728251735362]
2Dオブジェクト境界ボックスから6DoFオブジェクトポーズを得るための2ステップポーズ推定フレームワークを提案する。
最初のステップでは、フレームワークはオブジェクトを実際のデータと合成データからセグメンテーションすることを学ぶ。
第2のステップでは,dsc-posenetという,デュアルスケールなポーズ推定ネットワークを設計する。
提案手法は,合成データに基づいて訓練した最先端のモデルよりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2021-04-08T10:19:35Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。