論文の概要: Populating 3D Scenes by Learning Human-Scene Interaction
- arxiv url: http://arxiv.org/abs/2012.11581v2
- Date: Mon, 5 Apr 2021 15:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:30:30.169065
- Title: Populating 3D Scenes by Learning Human-Scene Interaction
- Title(参考訳): ヒューマン・シーンインタラクション学習による3次元シーンの空間化
- Authors: Mohamed Hassan, Partha Ghosh, Joachim Tesch, Dimitrios Tzionas,
Michael J. Black
- Abstract要約: 私たちは、人間がシーンと対話する方法を学び、これを活用して、仮想文字を同じことを可能にします。
相互作用の表現は体中心であり、新しいシーンに一般化することができる。
我々は,POSAが学習した身体とシーンの相互作用の表現が,単眼の人間のポーズ推定を支援することを示す。
- 参考スコア(独自算出の注目度): 47.42049393299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans live within a 3D space and constantly interact with it to perform
tasks. Such interactions involve physical contact between surfaces that is
semantically meaningful. Our goal is to learn how humans interact with scenes
and leverage this to enable virtual characters to do the same. To that end, we
introduce a novel Human-Scene Interaction (HSI) model that encodes proximal
relationships, called POSA for "Pose with prOximitieS and contActs". The
representation of interaction is body-centric, which enables it to generalize
to new scenes. Specifically, POSA augments the SMPL-X parametric human body
model such that, for every mesh vertex, it encodes (a) the contact probability
with the scene surface and (b) the corresponding semantic scene label. We learn
POSA with a VAE conditioned on the SMPL-X vertices, and train on the PROX
dataset, which contains SMPL-X meshes of people interacting with 3D scenes, and
the corresponding scene semantics from the PROX-E dataset. We demonstrate the
value of POSA with two applications. First, we automatically place 3D scans of
people in scenes. We use a SMPL-X model fit to the scan as a proxy and then
find its most likely placement in 3D. POSA provides an effective representation
to search for "affordances" in the scene that match the likely contact
relationships for that pose. We perform a perceptual study that shows
significant improvement over the state of the art on this task. Second, we show
that POSA's learned representation of body-scene interaction supports monocular
human pose estimation that is consistent with a 3D scene, improving on the
state of the art. Our model and code are available for research purposes at
https://posa.is.tue.mpg.de.
- Abstract(参考訳): 人間は3D空間に住んでおり、タスクを実行するために常に対話します。
このような相互作用は、意味的に意味のある表面間の物理的接触を伴う。
私たちの目標は、人間がシーンとどのように相互作用するかを学び、これを活用して仮想文字を同じことを可能にすることです。
そこで我々は,親密な関係を符号化する新しいヒューマン・シーン・インタラクション (HSI) モデルを紹介し,POSA を "Pose with prOximitieS and contActs" と呼ぶ。
相互作用の表現は体中心であり、新しいシーンに一般化することができる。
特に、POSAはSMPL-Xパラメトリック人体モデルを拡張し、各メッシュ頂点に対して(a)シーン表面との接触確率と(b)対応するセマンティックシーンラベルを符号化する。
SMPL-X頂点に条件付きVAEを用いてPOSAを学習し、3Dシーンと対話する人々のSMPL-Xメッシュと、それに対応するシーンセマンティクスを含むPropXデータセットでトレーニングする。
2つのアプリケーションでPOSAの価値を実証する。
まず、人物の3dスキャンをシーンに自動的に配置する。
プロキシとしてスキャンに適合するSMPL-Xモデルを使用して、最も可能性の高い3Dの配置を見つけます。
POSAは、シーン内の、そのポーズの可能性のある接触関係にマッチする「状況」を検索するための効果的な表現を提供する。
本研究は,この課題における技術状況に対する顕著な改善を示す知覚的研究を行う。
第2に,posaが学習した身体-身体間相互作用の表現は,3次元場面と一致した単眼的な人間のポーズ推定をサポートし,芸術の状態を改善できることを示す。
私たちのモデルとコードは、https://posa.is.tue.mpg.deで研究目的に利用できます。
関連論文リスト
- GenZI: Zero-Shot 3D Human-Scene Interaction Generation [39.9039943099911]
我々は3次元人間とシーンの相互作用を生成するための最初のゼロショットアプローチであるGenZIを提案する。
GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。
既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータに対する従来のニーズを回避している。
論文 参考訳(メタデータ) (2023-11-29T15:40:11Z) - DECO: Dense Estimation of 3D Human-Scene Contact In The Wild [54.44345845842109]
SMPL体上の接触を推定するために、身体部分駆動とシーンコンテキスト駆動の両方の注意を用いた新しい3D接触検出器を訓練する。
すべてのベンチマークで既存のSOTAメソッドよりも大幅に優れています。
また、DECが自然画像における多様で挑戦的な現実世界の人間のインタラクションによく当てはまることを定性的に示す。
論文 参考訳(メタデータ) (2023-09-26T21:21:07Z) - HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。
実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文 参考訳(メタデータ) (2022-10-18T10:14:11Z) - Embodied Scene-aware Human Pose Estimation [25.094152307452]
シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
論文 参考訳(メタデータ) (2022-06-18T03:50:19Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。