論文の概要: Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption
- arxiv url: http://arxiv.org/abs/2404.11291v1
- Date: Wed, 17 Apr 2024 11:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:14:33.738667
- Title: Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption
- Title(参考訳): 近似と物理誘導適応を用いた近接的人間再構成
- Authors: Buzhen Huang, Chen Li, Chongyang Xu, Liang Pan, Yangang Wang, Gim Hee Lee,
- Abstract要約: 既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
- 参考スコア(独自算出の注目度): 64.07607726562841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-person human reconstruction approaches mainly focus on recovering accurate poses or avoiding penetration, but overlook the modeling of close interactions. In this work, we tackle the task of reconstructing closely interactive humans from a monocular video. The main challenge of this task comes from insufficient visual information caused by depth ambiguity and severe inter-person occlusion. In view of this, we propose to leverage knowledge from proxemic behavior and physics to compensate the lack of visual information. This is based on the observation that human interaction has specific patterns following the social proxemics. Specifically, we first design a latent representation based on Vector Quantised-Variational AutoEncoder (VQ-VAE) to model human interaction. A proxemics and physics guided diffusion model is then introduced to denoise the initial distribution. We design the diffusion model as dual branch with each branch representing one individual such that the interaction can be modeled via cross attention. With the learned priors of VQ-VAE and physical constraint as the additional information, our proposed approach is capable of estimating accurate poses that are also proxemics and physics plausible. Experimental results on Hi4D, 3DPW, and CHI3D demonstrate that our method outperforms existing approaches. The code is available at \url{https://github.com/boycehbz/HumanInteraction}.
- Abstract(参考訳): 既存の複数人の再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てているが、密接な相互作用のモデリングを見落としている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
このタスクの主な課題は、深度あいまいさと重度の対人閉塞によって引き起こされる視覚情報不足である。
そこで我々は,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
これは、人間の相互作用が社会的プロキシに従って特定のパターンを持つという観察に基づいている。
具体的には,まず,Vector Quantized-Variational AutoEncoder(VQ-VAE)に基づく潜在表現を設計し,人間のインタラクションをモデル化する。
次に、初期分布を認知するために、近似および物理誘導拡散モデルを導入する。
我々は拡散モデルを1つの個人を表す分岐を持つ二重分岐として設計し、相互に注意して相互作用をモデル化する。
VQ-VAEの学習先行と物理的制約を付加情報として,本提案手法は,近似や物理にも適する正確なポーズを推定できる。
Hi4D, 3DPW, CHI3Dの実験結果から, 提案手法が既存手法より優れていることが示された。
コードは \url{https://github.com/boycehbz/HumanInteraction} で公開されている。
関連論文リスト
- Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。
人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。
この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:28Z) - Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - Generative Proxemics: A Prior for 3D Social Interaction from Images [32.547187575678464]
社会的相互作用は人間の行動とコミュニケーションの基本的な側面である。
近親密なソーシャルインタラクションにおける2人の3Dプロキセメクスの事前学習を行う新しいアプローチを提案する。
提案手法は,ノイズの多い初期推定値から正確な3次元ソーシャルインタラクションを復元し,最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-06-15T17:59:20Z) - Probabilistic Human Mesh Recovery in 3D Scenes from Egocentric Views [32.940614931864154]
身体のポーズ分布をモデル化するシーン条件拡散法を提案する。
この方法は、可塑性ヒトとシーンの相互作用において体を生成する。
目に見える関節の精度と、目に見えない身体の部分の多様性に優れる。
論文 参考訳(メタデータ) (2023-04-12T17:58:57Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。