論文の概要: Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions
- arxiv url: http://arxiv.org/abs/2410.20294v1
- Date: Sun, 27 Oct 2024 00:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:43.472628
- Title: Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions
- Title(参考訳): Harmony4D:Wildのクローズヒューマンインタラクションのためのビデオデータセット
- Authors: Rawal Khirodkar, Jyun-Ting Song, Jinkun Cao, Zhengyi Luo, Kris Kitani,
- Abstract要約: Harmony4Dは、レスリング、ダンス、MMAなどのフィールド内アクティビティを特徴とする人間と人間のインタラクションのためのデータセットである。
我々は、フレキシブルなマルチビューキャプチャシステムを用いて、これらのダイナミックなアクティビティを記録し、人間検出、追跡、2D/3Dポーズ推定、および密接な相互作用のある被験者のためのメッシュ回復のためのアノテーションを提供する。
- 参考スコア(独自算出の注目度): 27.677520981665012
- License:
- Abstract: Understanding how humans interact with each other is key to building realistic multi-human virtual reality systems. This area remains relatively unexplored due to the lack of large-scale datasets. Recent datasets focusing on this issue mainly consist of activities captured entirely in controlled indoor environments with choreographed actions, significantly affecting their diversity. To address this, we introduce Harmony4D, a multi-view video dataset for human-human interaction featuring in-the-wild activities such as wrestling, dancing, MMA, and more. We use a flexible multi-view capture system to record these dynamic activities and provide annotations for human detection, tracking, 2D/3D pose estimation, and mesh recovery for closely interacting subjects. We propose a novel markerless algorithm to track 3D human poses in severe occlusion and close interaction to obtain our annotations with minimal manual intervention. Harmony4D consists of 1.66 million images and 3.32 million human instances from more than 20 synchronized cameras with 208 video sequences spanning diverse environments and 24 unique subjects. We rigorously evaluate existing state-of-the-art methods for mesh recovery and highlight their significant limitations in modeling close interaction scenarios. Additionally, we fine-tune a pre-trained HMR2.0 model on Harmony4D and demonstrate an improved performance of 54.8% PVE in scenes with severe occlusion and contact. Code and data are available at https://jyuntins.github.io/harmony4d/.
- Abstract(参考訳): 人間同士のインタラクションを理解することが、現実的なマルチヒューマンバーチャルリアリティシステム構築の鍵となる。
この領域は、大規模なデータセットが不足しているため、比較的探索されていないままである。
この課題に焦点をあてた最近のデータセットは、主に、振付行動を伴う制御された屋内環境において、その多様性に大きな影響を及ぼす活動で構成されている。
この問題を解決するために,レスリング,ダンス,MMAなどのフィールド内活動を含む人間と人間のインタラクションのためのマルチビュービデオデータセットであるHarmony4Dを紹介した。
我々は、フレキシブルなマルチビューキャプチャシステムを用いて、これらのダイナミックなアクティビティを記録し、人間検出、追跡、2D/3Dポーズ推定、および密接な相互作用のある被験者のためのメッシュ回復のためのアノテーションを提供する。
そこで本研究では,手動操作を最小限に抑えたアノテーションを得るために,厳密な閉塞と密接な相互作用を伴う3次元人間のポーズを追跡する新しいマーカーレスアルゴリズムを提案する。
Harmony4Dは、20以上の同期カメラから166万の画像と332万の人間のインスタンスで構成され、208の動画シーケンスが多様な環境と24のユニークな主題にまたがっている。
我々は、メッシュリカバリのための既存の最先端メソッドを厳格に評価し、密接な相互作用シナリオをモデル化する際の重要な制限を強調します。
さらに,Harmony4Dで事前学習したHMR2.0モデルを微調整し,54.8% PVEの性能向上を示す。
コードとデータはhttps://jyuntins.github.io/harmony4d/で公開されている。
関連論文リスト
- EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models [16.259040755335885]
従来の自己回帰に基づく3Dシーン生成手法は、複数の物体と入力人間の関節分布を正確に捉えるのに苦労してきた。
本研究では,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。
我々のフレームワークは、人間とシーンのインタラクションを正確に行うことで、より自然でわかりやすい3Dシーンを生成することができる。
論文 参考訳(メタデータ) (2024-06-26T08:18:39Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - Hi4D: 4D Instance Segmentation of Close Human Interaction [32.51930800738743]
Hi4Dは、20の被験者ペア、100のシーケンス、合計11Kフレームからなる4Dテクスチャスキャンのデータセットである。
このデータセットには、2Dと3Dのリッチなインタラクション中心アノテーションと、正確に登録されたパラメトリックボディモデルが含まれている。
論文 参考訳(メタデータ) (2023-03-27T16:53:09Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor
Space Using Wearable IMUs and LiDAR [51.9200422793806]
ボディマウントのIMUとLiDARのみを使用することで、HSC4Dは外部機器の制約なしに空間自由となり、マップ無しで事前に構築された地図を作成できる。
人間と環境の関係も研究され、対話をより現実的なものにしている。
論文 参考訳(メタデータ) (2022-03-17T10:05:55Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - HUMAN4D: A Human-Centric Multimodal Dataset for Motions and Immersive
Media [16.711606354731533]
HUMAN4Dは大規模かつマルチモーダルな4Dデータセットで、同時にキャプチャされたさまざまな人間の活動を含む。
我々はHUMAN4Dによる最新の人間のポーズ推定と3Dポーズ推定手法を用いてベンチマークを行う。
論文 参考訳(メタデータ) (2021-10-14T09:03:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。