論文の概要: RoHM: Robust Human Motion Reconstruction via Diffusion
- arxiv url: http://arxiv.org/abs/2401.08570v1
- Date: Tue, 16 Jan 2024 18:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:39:45.517092
- Title: RoHM: Robust Human Motion Reconstruction via Diffusion
- Title(参考訳): RoHM: 拡散によるロバストな人間の運動再構成
- Authors: Siwei Zhang, Bharat Lal Bhatnagar, Yuanlu Xu, Alexander Winkler, Petr
Kadlecek, Siyu Tang, Federica Bogo
- Abstract要約: RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
- 参考スコア(独自算出の注目度): 61.16257692011714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RoHM, an approach for robust 3D human motion reconstruction from
monocular RGB(-D) videos in the presence of noise and occlusions. Most previous
approaches either train neural networks to directly regress motion in 3D or
learn data-driven motion priors and combine them with optimization at test
time. The former do not recover globally coherent motion and fail under
occlusions; the latter are time-consuming, prone to local minima, and require
manual tuning. To overcome these shortcomings, we exploit the iterative,
denoising nature of diffusion models. RoHM is a novel diffusion-based motion
model that, conditioned on noisy and occluded input data, reconstructs
complete, plausible motions in consistent global coordinates. Given the
complexity of the problem -- requiring one to address different tasks
(denoising and infilling) in different solution spaces (local and global
motion) -- we decompose it into two sub-tasks and learn two models, one for
global trajectory and one for local motion. To capture the correlations between
the two, we then introduce a novel conditioning module, combining it with an
iterative inference scheme. We apply RoHM to a variety of tasks -- from motion
reconstruction and denoising to spatial and temporal infilling. Extensive
experiments on three popular datasets show that our method outperforms
state-of-the-art approaches qualitatively and quantitatively, while being
faster at test time. The code will be available at
https://sanweiliti.github.io/ROHM/ROHM.html.
- Abstract(参考訳): 本稿では,モノクラーRGB(-D)ビデオからノイズや閉塞物の存在下での頑健な3次元人間の動作復元手法であるRoHMを提案する。
従来のアプローチでは、ニューラルネットワークをトレーニングして3dで直接動きをリグレッシブするか、データ駆動動作の優先順位を学習し、テスト時の最適化と組み合わせるかのどちらかだった。
前者はグローバルなコヒーレントな動きを回復せず、閉塞状態に陥り、後者は時間がかかり、局所的なミニマに傾向があり、手動のチューニングを必要とする。
これらの欠点を克服するために、拡散モデルの反復的、偏執的性質を利用する。
RoHMは、ノイズと閉塞された入力データに基づいて、一貫した大域座標で完全な可塑性運動を再構成する、新しい拡散に基づく運動モデルである。
異なるソリューション空間(ローカルとグローバルモーション)で異なるタスク(デオライズとインフィルディング)に対処しなければならない問題の複雑さを考えると、私たちはそれを2つのサブタスクに分解し、2つのモデルを学びます。
両者の相関関係を捉えるため,新しい条件付きモジュールを導入し,反復的推論手法と組み合わせた。
動作再構成や聴覚障害から空間的,時間的入力に至るまで,さまざまなタスクにRoHMを適用する。
3つの一般的なデータセットに対する大規模な実験により、我々の手法はテスト時に高速でありながら、定性的かつ定量的に最先端の手法より優れていることが示された。
コードはhttps://sanweiliti.github.io/ROHM/ROHM.htmlで入手できる。
関連論文リスト
- Score-Guided Diffusion for 3D Human Recovery [10.562998991986102]
Score-Guided Human Mesh Recovery (ScoreHMR)を提案する。
ScoreHMRはモデルフィッティングアプローチを模倣するが、拡散モデルの潜在空間におけるスコアガイダンスによって画像観察との整合が達成される。
提案手法は, (i) 単フレームモデルフィッティング, (ii) 複数視点からの再構成, (iii) ビデオシーケンスで人間を再構成することである。
論文 参考訳(メタデータ) (2024-03-14T17:56:14Z) - Equivariant Graph Neural Operator for Modeling 3D Dynamics [148.98826858078556]
我々は,次のステップの予測ではなく,ダイナミックスを直接トラジェクトリとしてモデル化するために,Equivariant Graph Neural Operator (EGNO)を提案する。
EGNOは3次元力学の時間的進化を明示的に学習し、時間とともに関数として力学を定式化し、それを近似するためにニューラル演算子を学習する。
粒子シミュレーション、人間のモーションキャプチャー、分子動力学を含む複数の領域における総合的な実験は、既存の手法と比較して、EGNOの極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-19T21:50:32Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - Dynamic Tensor Decomposition via Neural Diffusion-Reaction Processes [24.723536390322582]
テンソル分解は マルチウェイデータ解析の 重要なツールです
動的EMbedIngs fOr Dynamic Algorithm dEcomposition (DEMOTE)を提案する。
シミュレーション研究と実世界の応用の両方において,本手法の利点を示す。
論文 参考訳(メタデータ) (2023-10-30T15:49:45Z) - GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction [61.833152949826946]
本研究では,GraMMaRという3次元人体動作再構成のための新しいグラウンド・アウェア・モーション・モデルを提案する。
GraMMaRは、動きシーケンスの各時間ステップにおいて、ポーズにおける遷移の分布と、各関節面と接地面の間の相互作用を学習する。
運動と地面への距離変化との整合性を明確に促進するように訓練されている。
論文 参考訳(メタデータ) (2023-06-29T07:22:20Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic
3D Reconstruction [14.130915525776055]
RGBDに基づくリアルタイム動的3次元再構成は、フレーム間運動推定の不正確さに悩まされる。
オクルージョンフュージョン(OcclusionFusion, OcclusionFusion)は、オクルージョンを意識した3次元運動を計算し、再構成を誘導する手法である。
本手法は,既存の単一ビューベースリアルタイム手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-15T15:09:01Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。