論文の概要: A Unified Diffusion Framework for Scene-aware Human Motion Estimation from Sparse Signals
- arxiv url: http://arxiv.org/abs/2404.04890v1
- Date: Sun, 7 Apr 2024 09:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:01:21.942480
- Title: A Unified Diffusion Framework for Scene-aware Human Motion Estimation from Sparse Signals
- Title(参考訳): スパース信号からのシーン認識人間の動き推定のための統一拡散フレームワーク
- Authors: Jiangnan Tang, Jingya Wang, Kaiyang Ji, Lan Xu, Jingyi Yu, Ye Shi,
- Abstract要約: シーンによって提供されるリッチなコンテキスト情報を組み合わせて、スパース観測から全体の動き追跡に役立てる新しいフレームワークを提案する。
$textS2$Fusionは、まず、周期的オートエンコーダを介してスパース信号に存在する時空間関係を抽出する。
$textS2$Fusionは条件拡散を利用してシーン幾何学とスパース追跡信号を融合し、フルボディのシーン認識モーションを生成する。
- 参考スコア(独自算出の注目度): 47.72778485845676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating full-body human motion via sparse tracking signals from head-mounted displays and hand controllers in 3D scenes is crucial to applications in AR/VR. One of the biggest challenges to this task is the one-to-many mapping from sparse observations to dense full-body motions, which endowed inherent ambiguities. To help resolve this ambiguous problem, we introduce a new framework to combine rich contextual information provided by scenes to benefit full-body motion tracking from sparse observations. To estimate plausible human motions given sparse tracking signals and 3D scenes, we develop $\text{S}^2$Fusion, a unified framework fusing \underline{S}cene and sparse \underline{S}ignals with a conditional dif\underline{Fusion} model. $\text{S}^2$Fusion first extracts the spatial-temporal relations residing in the sparse signals via a periodic autoencoder, and then produces time-alignment feature embedding as additional inputs. Subsequently, by drawing initial noisy motion from a pre-trained prior, $\text{S}^2$Fusion utilizes conditional diffusion to fuse scene geometry and sparse tracking signals to generate full-body scene-aware motions. The sampling procedure of $\text{S}^2$Fusion is further guided by a specially designed scene-penetration loss and phase-matching loss, which effectively regularizes the motion of the lower body even in the absence of any tracking signals, making the generated motion much more plausible and coherent. Extensive experimental results have demonstrated that our $\text{S}^2$Fusion outperforms the state-of-the-art in terms of estimation quality and smoothness.
- Abstract(参考訳): 3Dシーンにおけるヘッドマウントディスプレイとハンドコントローラーからのスパーストラッキング信号を通じて、フルボディの人間の動きを推定することは、AR/VRの応用にとって不可欠である。
このタスクの最大の課題の1つは、スパース観測から密度の高いフルボディの動きへの1対1のマッピングであり、これは固有の曖昧さをもたらした。
この曖昧な問題を解決するために,シーンによって提供されるリッチな文脈情報を組み合わせて,スパース観測から全身運動追跡に役立てる新しい枠組みを導入する。
スパース追跡信号と3次元シーンが与えられた可視的な人間の動きを推定するために,条件付きdif\underline{Fusion}モデルで,sparse \underline{S}ceneとsparse \underline{S}ignalsを融合したフレームワークである$\text{S}^2$Fusionを開発した。
$\text{S}^2$Fusion は、まず周期的オートエンコーダを介してスパース信号に含まれる時空間関係を抽出し、次に追加入力として埋め込む時間調整機能を生成する。
その後、事前訓練された前者から初期雑音運動を描画することにより、$\text{S}^2$Fusionは条件拡散を利用してシーン幾何学とスパース追跡信号を融合し、フルボディのシーン認識動作を生成する。
さらに、$\text{S}^2$Fusionのサンプリング手順は、特別に設計されたシーン・ペネレーション・ロスと位相マッチング・ロスによって導かれる。
我々の$\text{S}^2$Fusionは推定品質と滑らかさの点で最先端であることを示した。
関連論文リスト
- Temporal Residual Jacobians For Rig-free Motion Transfer [45.640576754352104]
データ駆動型モーショントランスファーを実現するための新しい表現としてResidual Temporal Jacobiansを紹介した。
我々の手法は、リギングや中間形状へのアクセスを前提とせず、幾何学的かつ時間的に一貫した動きを発生させ、長い動き列の転送に利用できる。
論文 参考訳(メタデータ) (2024-07-20T18:29:22Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Detachable Novel Views Synthesis of Dynamic Scenes Using
Distribution-Driven Neural Radiance Fields [19.16403828672949]
カジュアルなモノクラービデオから現実のダイナミックなシーンを表現し、合成することは、長年の課題である。
我々のアプローチ $textbfD$etach は $textbfD$ynamic シーン全体から背景を取得します。
本手法は, テクスチャの細部や動き領域のレンダリングにおいて, 従来の手法よりも優れ, クリーンな静的背景を生成する。
論文 参考訳(メタデータ) (2023-01-01T14:39:09Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - iSDF: Real-Time Neural Signed Distance Fields for Robot Perception [64.80458128766254]
iSDFは実時間符号付き距離場再構成のための連続学習システムである。
より正確な再構築と、衝突コストと勾配のより良い近似を生成する。
論文 参考訳(メタデータ) (2022-04-05T15:48:39Z) - OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic
3D Reconstruction [14.130915525776055]
RGBDに基づくリアルタイム動的3次元再構成は、フレーム間運動推定の不正確さに悩まされる。
オクルージョンフュージョン(OcclusionFusion, OcclusionFusion)は、オクルージョンを意識した3次元運動を計算し、再構成を誘導する手法である。
本手法は,既存の単一ビューベースリアルタイム手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-15T15:09:01Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。