論文の概要: Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning
- arxiv url: http://arxiv.org/abs/2507.02565v1
- Date: Thu, 03 Jul 2025 12:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.274912
- Title: Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning
- Title(参考訳): 外観・韻律推論による人間同士の密接な相互作用の再構築
- Authors: Buzhen Huang, Chen Li, Chongyang Xu, Dongyue Lu, Jinnan Chen, Yangang Wang, Gim Hee Lee,
- Abstract要約: 既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.76723760768117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to visual ambiguities and inter-person occlusions, existing human pose estimation methods cannot recover plausible close interactions from in-the-wild videos. Even state-of-the-art large foundation models~(\eg, SAM) cannot accurately distinguish human semantics in such challenging scenarios. In this work, we find that human appearance can provide a straightforward cue to address these obstacles. Based on this observation, we propose a dual-branch optimization framework to reconstruct accurate interactive motions with plausible body contacts constrained by human appearances, social proxemics, and physical laws. Specifically, we first train a diffusion model to learn the human proxemic behavior and pose prior knowledge. The trained network and two optimizable tensors are then incorporated into a dual-branch optimization framework to reconstruct human motions and appearances. Several constraints based on 3D Gaussians, 2D keypoints, and mesh penetrations are also designed to assist the optimization. With the proxemics prior and diverse constraints, our method is capable of estimating accurate interactions from in-the-wild videos captured in complex environments. We further build a dataset with pseudo ground-truth interaction annotations, which may promote future research on pose estimation and human behavior understanding. Experimental results on several benchmarks demonstrate that our method outperforms existing approaches. The code and data are available at https://www.buzhenhuang.com/works/CloseApp.html.
- Abstract(参考訳): 視覚的あいまいさと対人オクルージョンのため、既存の人間のポーズ推定手法では、撮影中の映像からもっとも正確な密接な相互作用を回復できない。
最先端の大規模基盤モデル~(\eg, SAM)でさえ、このような困難なシナリオにおいて人間の意味論を正確に区別することはできない。
この研究で、人間の外見がこれらの障害に対処するための簡単な手がかりとなることがわかりました。
そこで本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触による正確な対話動作を再現するための2分岐最適化フレームワークを提案する。
具体的には、まず拡散モデルを訓練し、人間の近位行動を学び、事前の知識を提示する。
トレーニングされたネットワークと2つの最適化可能なテンソルは、人間の動きと外観を再構築するためのデュアルブランチ最適化フレームワークに組み込まれる。
最適化を支援するために、3Dガウス、2Dキーポイント、メッシュの浸透に基づくいくつかの制約も設計されている。
本手法は,先行制約と多種多様な制約により,複雑な環境下での映像からの正確なインタラクションを推定できる。
さらに,擬似地中相互作用アノテーションを用いたデータセットを構築し,ポーズ推定と人間の行動理解に関する今後の研究を促進する可能性がある。
いくつかのベンチマーク実験の結果,提案手法が既存手法より優れていることが示された。
コードとデータはhttps://www.buzhenhuang.com/works/CloseApp.htmlで公開されている。
関連論文リスト
- Pose Priors from Language Models [74.61186408764559]
言語はしばしば物理的相互作用を記述するために使用されるが、ほとんどの3次元人間のポーズ推定方法は、この豊富な情報ソースを見下ろしている。
我々は、コンタクトポーズの再構築に先立って、大型マルチモーダルモデル(LMM)を活用することにより、このギャップを埋める。
論文 参考訳(メタデータ) (2024-05-06T17:59:36Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Probabilistic Human Mesh Recovery in 3D Scenes from Egocentric Views [32.940614931864154]
身体のポーズ分布をモデル化するシーン条件拡散法を提案する。
この方法は、可塑性ヒトとシーンの相互作用において体を生成する。
目に見える関節の精度と、目に見えない身体の部分の多様性に優れる。
論文 参考訳(メタデータ) (2023-04-12T17:58:57Z) - Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation [33.86986028882488]
咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。
既存のメソッドは、ポーズ先/制約、データ拡張、暗黙の推論でオクルージョンを処理しようとする。
本研究では、ボトムアップ型多人数ポーズ推定を大幅に改善する、このプロセスを明示的にモデル化する手法を開発した。
論文 参考訳(メタデータ) (2022-07-29T22:12:50Z) - Occluded Human Body Capture with Self-Supervised Spatial-Temporal Motion
Prior [7.157324258813676]
私たちは、トレーニングとテストの両方に使用できる最初の3Dクローズドモーションデータセット(OcMotion)を構築します。
次に、空間時間層は、関節レベルの相関を学習するために設計される。
実験結果から,提案手法は,映像から高精度で一貫性のある人間の動きを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T08:15:11Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。