論文の概要: Capturing and Inferring Dense Full-Body Human-Scene Contact
- arxiv url: http://arxiv.org/abs/2206.09553v1
- Date: Mon, 20 Jun 2022 03:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:03:05.885734
- Title: Capturing and Inferring Dense Full-Body Human-Scene Contact
- Title(参考訳): フルボディヒト・シーン接触の捕捉と推測
- Authors: Chun-Hao P. Huang, Hongwei Yi, Markus H\"oschle, Matvey Safroshkin,
Tsvetelina Alexiadis, Senya Polikovsky, Daniel Scharstein, Michael J. Black
- Abstract要約: 我々は、単一のRGB画像から高密度のボディシーン接触を予測するネットワークを訓練する。
このような非局所的な関係を学習するためにトランスフォーマーを使用し、BSTRO(Body-Scene Contact TRansfOrmer)を提案する。
我々の知る限り、BSTROは1枚の画像から3Dボディシーンの接触を直接推定する最初の方法である。
- 参考スコア(独自算出の注目度): 40.29636308110822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring human-scene contact (HSC) is the first step toward understanding
how humans interact with their surroundings. While detecting 2D human-object
interaction (HOI) and reconstructing 3D human pose and shape (HPS) have enjoyed
significant progress, reasoning about 3D human-scene contact from a single
image is still challenging. Existing HSC detection methods consider only a few
types of predefined contact, often reduce body and scene to a small number of
primitives, and even overlook image evidence. To predict human-scene contact
from a single image, we address the limitations above from both data and
algorithmic perspectives. We capture a new dataset called RICH for "Real
scenes, Interaction, Contact and Humans." RICH contains multiview
outdoor/indoor video sequences at 4K resolution, ground-truth 3D human bodies
captured using markerless motion capture, 3D body scans, and high resolution 3D
scene scans. A key feature of RICH is that it also contains accurate
vertex-level contact labels on the body. Using RICH, we train a network that
predicts dense body-scene contacts from a single RGB image. Our key insight is
that regions in contact are always occluded so the network needs the ability to
explore the whole image for evidence. We use a transformer to learn such
non-local relationships and propose a new Body-Scene contact TRansfOrmer
(BSTRO). Very few methods explore 3D contact; those that do focus on the feet
only, detect foot contact as a post-processing step, or infer contact from body
pose without looking at the scene. To our knowledge, BSTRO is the first method
to directly estimate 3D body-scene contact from a single image. We demonstrate
that BSTRO significantly outperforms the prior art. The code and dataset are
available at https://rich.is.tue.mpg.de.
- Abstract(参考訳): 人間の身近な接触(HSC)を推測することは、人間が周囲とどのように相互作用するかを理解するための第一歩である。
2次元人-物体相互作用(HOI)の検出と3次元人のポーズと形状(HPS)の再構築は大きな進歩を遂げた。
既存のHSC検出手法では、いくつかの事前定義された接触のみを考慮し、身体とシーンを少数のプリミティブに減らし、画像証拠を見落としている。
1つの画像から人間のシーンの接触を予測するために、上記の制限をデータとアルゴリズムの両方の観点から解決する。
私たちは「リアルシーン、インタラクション、コンタクト、人間」のためにRICHと呼ばれる新しいデータセットをキャプチャします。
RICHには、4K解像度の屋外/屋内ビデオシーケンス、マーカーレスモーションキャプチャー、3Dボディスキャン、高解像度の3Dシーンスキャンなどが含まれている。
RICHの重要な特徴は、身体に正確な頂点レベルの接触ラベルを含むことである。
RICHを用いて、単一のRGB画像から高密度のボディシーン接触を予測するネットワークを訓練する。
私たちの重要な洞察は、接触する領域は常に閉鎖されているため、ネットワークは証拠のために画像全体を探索する能力が必要です。
このような非局所的な関係を学習するためにトランスフォーマーを使用し、BSTRO(Body-Scene Contact TRansfOrmer)を提案する。
足のみに焦点を合わせ、足の接触を後処理のステップとして検出したり、シーンを見ることなく身体のポーズから接触を推測する手法はほとんどない。
我々の知る限り、BSTROは1枚の画像から3Dボディシーンの接触を直接推定する最初の方法である。
BSTROが先行技術よりも優れていることを示す。
コードとデータセットはhttps://rich.is.tue.mpg.deで利用可能である。
関連論文リスト
- 3D Reconstruction of Interacting Multi-Person in Clothing from a Single Image [8.900009931200955]
本稿では,1つの画像からグローバルなコヒーレントなシーン空間上の衣服の多人数インタラクションの形状を再構築する,新しいパイプラインを提案する。
この課題を克服するために、人間の2つの先駆体を完全な3次元形状と表面接触に活用する。
その結果,本手法は既存の手法と比較して完全で,グローバルに一貫性があり,物理的に妥当であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T07:23:02Z) - DECO: Dense Estimation of 3D Human-Scene Contact In The Wild [54.44345845842109]
SMPL体上の接触を推定するために、身体部分駆動とシーンコンテキスト駆動の両方の注意を用いた新しい3D接触検出器を訓練する。
すべてのベンチマークで既存のSOTAメソッドよりも大幅に優れています。
また、DECが自然画像における多様で挑戦的な現実世界の人間のインタラクションによく当てはまることを定性的に示す。
論文 参考訳(メタデータ) (2023-09-26T21:21:07Z) - Detecting Human-Object Contact in Images [75.35017308643471]
人間は常にオブジェクトに接触し、タスクを動かします。
画像から身体とシーンの接触を検出する堅牢な方法はない。
我々は、画像のための人間と物体の接触のデータセットを新たに構築する。
論文 参考訳(メタデータ) (2023-03-06T18:56:26Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。
提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。
また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。
パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文 参考訳(メタデータ) (2021-08-23T20:47:09Z) - Populating 3D Scenes by Learning Human-Scene Interaction [47.42049393299]
私たちは、人間がシーンと対話する方法を学び、これを活用して、仮想文字を同じことを可能にします。
相互作用の表現は体中心であり、新しいシーンに一般化することができる。
我々は,POSAが学習した身体とシーンの相互作用の表現が,単眼の人間のポーズ推定を支援することを示す。
論文 参考訳(メタデータ) (2020-12-21T18:57:55Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。