論文の概要: 3D Neural Embedding Likelihood for Robust Sim-to-Real Transfer in
Inverse Graphics
- arxiv url: http://arxiv.org/abs/2302.03744v1
- Date: Tue, 7 Feb 2023 20:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 18:08:44.843550
- Title: 3D Neural Embedding Likelihood for Robust Sim-to-Real Transfer in
Inverse Graphics
- Title(参考訳): 逆グラフにおけるロバスト・シム・トゥ・リール転送のための3次元ニューラル埋め込み
- Authors: Guangyao Zhou, Nishad Gothoskar, Lirui Wang, Joshua B. Tenenbaum, Dan
Gutfreund, Miguel L\'azaro-Gredilla, Dileep George, Vikash K. Mansinghka
- Abstract要約: 逆グラフィックスによる3Dシーン認識における中心的な課題は、3Dグラフィックと実世界のデータのギャップを強くモデル化することである。
本稿では,RGB-D画像に対する新しい3次元ニューラルネットワーク(3DNEL)を提案する。
- 参考スコア(独自算出の注目度): 42.66763864582697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central challenge in 3D scene perception via inverse graphics is robustly
modeling the gap between 3D graphics and real-world data. We propose a novel 3D
Neural Embedding Likelihood (3DNEL) over RGB-D images to address this gap.
3DNEL uses neural embeddings to predict 2D-3D correspondences from RGB and
combines this with depth in a principled manner. 3DNEL is trained entirely from
synthetic images and generalizes to real-world data. To showcase this
capability, we develop a multi-stage inverse graphics pipeline that uses 3DNEL
for 6D object pose estimation from real RGB-D images. Our method outperforms
the previous state-of-the-art in sim-to-real pose estimation on the YCB-Video
dataset, and improves robustness, with significantly fewer large-error
predictions. Unlike existing bottom-up, discriminative approaches that are
specialized for pose estimation, 3DNEL adopts a probabilistic generative
formulation that jointly models multi-object scenes. This generative
formulation enables easy extension of 3DNEL to additional tasks like object and
camera tracking from video, using principled inference in the same
probabilistic model without task specific retraining.
- Abstract(参考訳): 逆グラフィックスによる3Dシーン認識における中心的な課題は、3Dグラフィックと実世界のデータのギャップを強くモデル化することである。
本稿では,RGB-D画像に対する新しい3次元ニューラルネットワーク(3DNEL)を提案する。
3DNELは、ニューラルネットワークを用いてRGBから2D-3D対応を予測し、これを原則的に奥行きと組み合わせる。
3DNELは完全に合成画像から訓練され、実世界のデータに一般化される。
この能力を実証するために,実RGB-D画像から6次元オブジェクトのポーズ推定に3DNELを用いた多段逆グラフパイプラインを開発した。
提案手法は,YCB-Videoデータセット上での擬似ポーズ推定における先行技術よりも優れ,ロバスト性を向上し,大規模なエラー予測を著しく少なくする。
ポーズ推定に特化している既存のボトムアップと異なり、3DNELは多目的シーンを共同でモデル化する確率的生成定式化を採用する。
この生成的定式化は、3DNELをビデオからオブジェクトやカメラ追跡などの追加タスクに容易に拡張することができる。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Uncertainty-aware 3D Object-Level Mapping with Deep Shape Priors [15.34487368683311]
未知のオブジェクトに対して高品質なオブジェクトレベルマップを再構築するフレームワークを提案する。
提案手法では,複数のRGB-D画像を入力として,高密度な3次元形状と検出対象に対する9-DoFポーズを出力する。
2つの新たな損失関数を通して形状を伝播し不確実性を生じさせる確率的定式化を導出する。
論文 参考訳(メタデータ) (2023-09-17T00:48:19Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - 6D Object Pose Estimation from Approximate 3D Models for Orbital
Robotics [19.64111218032901]
単一画像から物体の6次元ポーズを推定する新しい手法を提案する。
画素毎に3次元モデル座標を回帰する高密度な2次元から3次元対応予測器を用いる。
提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。
論文 参考訳(メタデータ) (2023-03-23T13:18:05Z) - Uncertainty Guided Policy for Active Robotic 3D Reconstruction using
Neural Radiance Fields [82.21033337949757]
本稿では,物体の暗黙のニューラル表現の各光線に沿ったカラーサンプルの重量分布のエントロピーを計算した線量不確実性推定器を提案する。
提案した推定器を用いた新しい視点から, 基礎となる3次元形状の不確かさを推測することが可能であることを示す。
ニューラルラディアンス場に基づく表現における線量不確実性によって導かれる次ベクター選択ポリシーを提案する。
論文 参考訳(メタデータ) (2022-09-17T21:28:57Z) - Towards Two-view 6D Object Pose Estimation: A Comparative Study on
Fusion Strategy [16.65699606802237]
現在のRGBベースの6Dオブジェクトポーズ推定手法は、データセットや実世界のアプリケーションで顕著なパフォーマンスを達成した。
本稿では2枚のRGB画像から暗黙的な3D情報を学習する6次元オブジェクトポーズ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-01T08:22:34Z) - Pose Estimation of Specific Rigid Objects [0.7931904787652707]
本稿では,RGBまたはRGB-D入力画像から剛体物体の6次元ポーズを推定する問題に対処する。
この問題は、ロボット操作、拡張現実、自律運転など、多くの応用分野において非常に重要である。
論文 参考訳(メタデータ) (2021-12-30T14:36:47Z) - 3DP3: 3D Scene Perception via Probabilistic Programming [28.491817202574932]
3DP3は、オブジェクト、シーン、イメージの構造化生成モデルで推論を使用する逆グラフィックのためのフレームワークである。
その結果,3DP3は深層学習ベースラインよりも実画像から6DoFオブジェクトのポーズ推定の方が精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-10-30T19:10:34Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。