論文の概要: 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2302.03744v3
- Date: Wed, 6 Sep 2023 21:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 17:47:05.406952
- Title: 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation
- Title(参考訳): 3次元ニューラルネットワーク埋め込み確率:ロバストな6次元ポーズ推定のための確率的逆グラフィックス
- Authors: Guangyao Zhou, Nishad Gothoskar, Lirui Wang, Joshua B. Tenenbaum, Dan
Gutfreund, Miguel L\'azaro-Gredilla, Dileep George, Vikash K. Mansinghka
- Abstract要約: 逆グラフィックスは2次元画像から3次元シーン構造を推論することを目的としている。
確率モデルを導入し,不確実性を定量化し,6次元ポーズ推定タスクにおけるロバスト性を実現する。
3DNELは、RGBから学んだニューラルネットワークの埋め込みと深度情報を組み合わせることで、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を向上させる。
- 参考スコア(独自算出の注目度): 50.15926681475939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perceive and understand 3D scenes is crucial for many
applications in computer vision and robotics. Inverse graphics is an appealing
approach to 3D scene understanding that aims to infer the 3D scene structure
from 2D images. In this paper, we introduce probabilistic modeling to the
inverse graphics framework to quantify uncertainty and achieve robustness in 6D
pose estimation tasks. Specifically, we propose 3D Neural Embedding Likelihood
(3DNEL) as a unified probabilistic model over RGB-D images, and develop
efficient inference procedures on 3D scene descriptions. 3DNEL effectively
combines learned neural embeddings from RGB with depth information to improve
robustness in sim-to-real 6D object pose estimation from RGB-D images.
Performance on the YCB-Video dataset is on par with state-of-the-art yet is
much more robust in challenging regimes. In contrast to discriminative
approaches, 3DNEL's probabilistic generative formulation jointly models
multiple objects in a scene, quantifies uncertainty in a principled way, and
handles object pose tracking under heavy occlusion. Finally, 3DNEL provides a
principled framework for incorporating prior knowledge about the scene and
objects, which allows natural extension to additional tasks like camera pose
tracking from video.
- Abstract(参考訳): 3dシーンを知覚し理解する能力は、コンピュータビジョンやロボット工学の多くの応用に不可欠である。
逆グラフィックスは,2次元画像から3次元シーン構造を推測することを目的とした,3次元シーン理解への魅力的なアプローチである。
本稿では,不確かさを定量化し,6次元ポーズ推定タスクにおけるロバスト性を達成するために,逆グラフィックスフレームワークに確率的モデリングを導入する。
具体的には,RGB-D画像上の統一確率モデルとして3D Neural Embedding Likelihood (3DNEL)を提案する。
3DNELは、RGBから学習した神経埋め込みと深度情報を組み合わせて、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を改善する。
YCB-Videoデータセットのパフォーマンスは最先端と同等だが、挑戦的なレシエーションではずっと堅牢だ。
差別的アプローチとは対照的に、3dnelの確率的生成形式はシーン内の複数の物体を共同でモデル化し、原理的に不確かさを定量化し、重い咬合下で物体のポーズ追跡を扱う。
最後に、3dnelは、シーンとオブジェクトに関する事前知識を組み込むための原則付きフレームワークを提供し、ビデオからのカメラポーズ追跡のような追加タスクへの自然な拡張を可能にする。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Uncertainty-aware 3D Object-Level Mapping with Deep Shape Priors [15.34487368683311]
未知のオブジェクトに対して高品質なオブジェクトレベルマップを再構築するフレームワークを提案する。
提案手法では,複数のRGB-D画像を入力として,高密度な3次元形状と検出対象に対する9-DoFポーズを出力する。
2つの新たな損失関数を通して形状を伝播し不確実性を生じさせる確率的定式化を導出する。
論文 参考訳(メタデータ) (2023-09-17T00:48:19Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - 6D Object Pose Estimation from Approximate 3D Models for Orbital
Robotics [19.64111218032901]
単一画像から物体の6次元ポーズを推定する新しい手法を提案する。
画素毎に3次元モデル座標を回帰する高密度な2次元から3次元対応予測器を用いる。
提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。
論文 参考訳(メタデータ) (2023-03-23T13:18:05Z) - Uncertainty Guided Policy for Active Robotic 3D Reconstruction using
Neural Radiance Fields [82.21033337949757]
本稿では,物体の暗黙のニューラル表現の各光線に沿ったカラーサンプルの重量分布のエントロピーを計算した線量不確実性推定器を提案する。
提案した推定器を用いた新しい視点から, 基礎となる3次元形状の不確かさを推測することが可能であることを示す。
ニューラルラディアンス場に基づく表現における線量不確実性によって導かれる次ベクター選択ポリシーを提案する。
論文 参考訳(メタデータ) (2022-09-17T21:28:57Z) - Towards Two-view 6D Object Pose Estimation: A Comparative Study on
Fusion Strategy [16.65699606802237]
現在のRGBベースの6Dオブジェクトポーズ推定手法は、データセットや実世界のアプリケーションで顕著なパフォーマンスを達成した。
本稿では2枚のRGB画像から暗黙的な3D情報を学習する6次元オブジェクトポーズ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-01T08:22:34Z) - Pose Estimation of Specific Rigid Objects [0.7931904787652707]
本稿では,RGBまたはRGB-D入力画像から剛体物体の6次元ポーズを推定する問題に対処する。
この問題は、ロボット操作、拡張現実、自律運転など、多くの応用分野において非常に重要である。
論文 参考訳(メタデータ) (2021-12-30T14:36:47Z) - 3DP3: 3D Scene Perception via Probabilistic Programming [28.491817202574932]
3DP3は、オブジェクト、シーン、イメージの構造化生成モデルで推論を使用する逆グラフィックのためのフレームワークである。
その結果,3DP3は深層学習ベースラインよりも実画像から6DoFオブジェクトのポーズ推定の方が精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-10-30T19:10:34Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。