論文の概要: Physically Plausible 3D Human-Scene Reconstruction from Monocular RGB
Image using an Adversarial Learning Approach
- arxiv url: http://arxiv.org/abs/2307.14570v1
- Date: Thu, 27 Jul 2023 01:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 16:08:44.115707
- Title: Physically Plausible 3D Human-Scene Reconstruction from Monocular RGB
Image using an Adversarial Learning Approach
- Title(参考訳): 対向学習法を用いた単眼rgb画像からの物理的に有理な3次元人間-scene再構成
- Authors: Sandika Biswas, Kejie Li, Biplab Banerjee, Subhasis Chaudhuri, Hamid
Rezatofighi
- Abstract要約: 総合的な3次元人間シーン再構築の鍵となる課題は、単一の単眼RGB画像から物理的に可視な3Dシーンを生成することである。
本稿では、シーン要素の暗黙的特徴表現を用いて、人間と物体の物理的に妥当なアライメントを識別する。
既存の推論時間最適化手法とは異なり、この逆向きに訓練されたモデルを用いてシーンのフレームごとの3D再構成を行う。
- 参考スコア(独自算出の注目度): 26.827712050966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Holistic 3D human-scene reconstruction is a crucial and emerging research
area in robot perception. A key challenge in holistic 3D human-scene
reconstruction is to generate a physically plausible 3D scene from a single
monocular RGB image. The existing research mainly proposes optimization-based
approaches for reconstructing the scene from a sequence of RGB frames with
explicitly defined physical laws and constraints between different scene
elements (humans and objects). However, it is hard to explicitly define and
model every physical law in every scenario. This paper proposes using an
implicit feature representation of the scene elements to distinguish a
physically plausible alignment of humans and objects from an implausible one.
We propose using a graph-based holistic representation with an encoded physical
representation of the scene to analyze the human-object and object-object
interactions within the scene. Using this graphical representation, we
adversarially train our model to learn the feasible alignments of the scene
elements from the training data itself without explicitly defining the laws and
constraints between them. Unlike the existing inference-time optimization-based
approaches, we use this adversarially trained model to produce a per-frame 3D
reconstruction of the scene that abides by the physical laws and constraints.
Our learning-based method achieves comparable 3D reconstruction quality to
existing optimization-based holistic human-scene reconstruction methods and
does not need inference time optimization. This makes it better suited when
compared to existing methods, for potential use in robotic applications, such
as robot navigation, etc.
- Abstract(参考訳): ホロスティックな3次元人間シーンの再構築はロボット知覚において重要かつ新しい研究領域である。
総合的な3次元人間シーン再構築の鍵となる課題は、単一の単眼RGB画像から物理的に可視な3Dシーンを生成することである。
既存の研究は主に、RGBフレームのシーケンスから、明確に定義された物理法則と異なるシーン要素(人間とオブジェクト)間の制約でシーンを再構築するための最適化に基づくアプローチを提案する。
しかしながら、すべてのシナリオにおいてすべての物理法則を明示的に定義しモデル化することは困難である。
本稿では、シーン要素の暗黙的特徴表現を用いて、人間と物体の物理的に妥当なアライメントと、不可解な要素とを区別する。
本稿では,シーンのエンコードされた物理表現を用いたグラフに基づく全体表現を用いて,シーン内のヒューマン・オブジェクト間インタラクションとオブジェクト間インタラクションを分析する。
この図式表現を用いて、私たちは、これらの間の法則や制約を明確に定義することなく、トレーニングデータ自体からシーン要素の実行可能なアライメントを学習するようにモデルを逆さまに訓練します。
既存の推論時間最適化アプローチとは異なり、この逆向きに訓練されたモデルを用いて、物理法則や制約に従うシーンをフレームごとの3D再構成する。
学習に基づく手法は,既存の最適化に基づく総合的人間-シーン復元法と同等の3次元再構成品質を達成し,推定時間最適化は不要である。
これにより、既存の方法と比較して、ロボットナビゲーションなどのロボットアプリケーションで使用するために、より適している。
関連論文リスト
- Kinematics-based 3D Human-Object Interaction Reconstruction from Single View [10.684643503514849]
既存の方法は、単に身体のポーズを単に屋内データセットのネットワークトレーニングに依存するだけである。
本研究では,人体の関節を人体接触領域へ正確に駆動するキネマティクスに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T05:44:35Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Visibility Aware Human-Object Interaction Tracking from Single RGB
Camera [40.817960406002506]
本稿では,1台のRGBカメラからフレーム間の3次元人・物・接触・相対変換を追跡する新しい手法を提案する。
我々は、SMPLをビデオシーケンスに予め適合させて得られたフレームごとのSMPLモデル推定に基づいて、人間と物体の脳野再構成を行う。
可視フレームからの人間と物体の動きは、隠蔽された物体を推測するための貴重な情報を提供する。
論文 参考訳(メタデータ) (2023-03-29T06:23:44Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。