論文の概要: Pose2Room: Understanding 3D Scenes from Human Activities
- arxiv url: http://arxiv.org/abs/2112.03030v1
- Date: Wed, 1 Dec 2021 20:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-12 14:53:15.546704
- Title: Pose2Room: Understanding 3D Scenes from Human Activities
- Title(参考訳): Pose2Room:人間の活動から3Dシーンを理解する
- Authors: Yinyu Nie, Angela Dai, Xiaoguang Han, Matthias Nie{\ss}ner
- Abstract要約: ウェアラブルIMUセンサーを使えば、視覚的な入力を必要とせずに、ウェアラブルデバイスから人間のポーズを推定することができる。
P2R-Netは人体の動きの多モード分布を効果的に学習できることを示す。
- 参考スコア(独自算出の注目度): 35.702234343672565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With wearable IMU sensors, one can estimate human poses from wearable devices
without requiring visual input \cite{von2017sparse}. In this work, we pose the
question: Can we reason about object structure in real-world environments
solely from human trajectory information? Crucially, we observe that human
motion and interactions tend to give strong information about the objects in a
scene -- for instance a person sitting indicates the likely presence of a chair
or sofa. To this end, we propose P2R-Net to learn a probabilistic 3D model of
the objects in a scene characterized by their class categories and oriented 3D
bounding boxes, based on an input observed human trajectory in the environment.
P2R-Net models the probability distribution of object class as well as a deep
Gaussian mixture model for object boxes, enabling sampling of multiple,
diverse, likely modes of object configurations from an observed human
trajectory. In our experiments we demonstrate that P2R-Net can effectively
learn multi-modal distributions of likely objects for human motions, and
produce a variety of plausible object structures of the environment, even
without any visual information.
- Abstract(参考訳): ウェアラブルIMUセンサーを使えば、視覚入力を必要とせずにウェアラブルデバイスから人間のポーズを推定することができる。
この研究で我々は、人間の軌道情報のみから、現実世界の環境におけるオブジェクト構造を推論できるだろうか?
重要なことに、人間の動きや相互作用はシーン内の物体についての強い情報を与える傾向がある。
そこで本研究では,P2R-Netを用いて,環境中の人間軌道の入力に基づいて,それらのクラスカテゴリと向き付けられた3次元境界ボックスを特徴とする物体の確率的3次元モデルを学習する。
P2R-Netは、オブジェクトクラスの確率分布と、オブジェクトボックスの深いガウス混合モデルをモデル化し、観察された人間の軌道から、複数の、多種多様な、おそらく可能なオブジェクト構成のサンプリングを可能にする。
我々の実験では、P2R-Netは、人間の動きの可能性のあるオブジェクトのマルチモーダル分布を効果的に学習し、視覚情報なしでも、環境の様々な可視性オブジェクト構造を生成できることを実証した。
関連論文リスト
- Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - Object pop-up: Can we infer 3D objects and their poses from human
interactions alone? [36.68984504569907]
ユーザが機能を模倣しているだけであっても、一般的な3Dヒューマンポイントクラウドは、観測されていないオブジェクトをポップアップさせるのに十分であることを示す。
提案手法の質的,定量的な検証を行い,XR/VRへの適用性を示した。
論文 参考訳(メタデータ) (2023-06-01T15:08:15Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - Learning Continuous Environment Fields via Implicit Functions [144.4913852552954]
本研究では,到達距離(シーン内の任意の位置から目標までの距離)を,実現可能な軌道に沿って符号化する新しいシーン表現を提案する。
本研究では,2次元迷路や屋内3次元シーンにおけるエージェントの動的挙動を直接導出できることを実証する。
論文 参考訳(メタデータ) (2021-11-27T22:36:58Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。