論文の概要: RoHM: Robust Human Motion Reconstruction via Diffusion
- arxiv url: http://arxiv.org/abs/2401.08570v1
- Date: Tue, 16 Jan 2024 18:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:39:45.517092
- Title: RoHM: Robust Human Motion Reconstruction via Diffusion
- Title(参考訳): RoHM: 拡散によるロバストな人間の運動再構成
- Authors: Siwei Zhang, Bharat Lal Bhatnagar, Yuanlu Xu, Alexander Winkler, Petr
Kadlecek, Siyu Tang, Federica Bogo
- Abstract要約: RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
- 参考スコア(独自算出の注目度): 61.16257692011714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RoHM, an approach for robust 3D human motion reconstruction from
monocular RGB(-D) videos in the presence of noise and occlusions. Most previous
approaches either train neural networks to directly regress motion in 3D or
learn data-driven motion priors and combine them with optimization at test
time. The former do not recover globally coherent motion and fail under
occlusions; the latter are time-consuming, prone to local minima, and require
manual tuning. To overcome these shortcomings, we exploit the iterative,
denoising nature of diffusion models. RoHM is a novel diffusion-based motion
model that, conditioned on noisy and occluded input data, reconstructs
complete, plausible motions in consistent global coordinates. Given the
complexity of the problem -- requiring one to address different tasks
(denoising and infilling) in different solution spaces (local and global
motion) -- we decompose it into two sub-tasks and learn two models, one for
global trajectory and one for local motion. To capture the correlations between
the two, we then introduce a novel conditioning module, combining it with an
iterative inference scheme. We apply RoHM to a variety of tasks -- from motion
reconstruction and denoising to spatial and temporal infilling. Extensive
experiments on three popular datasets show that our method outperforms
state-of-the-art approaches qualitatively and quantitatively, while being
faster at test time. The code will be available at
https://sanweiliti.github.io/ROHM/ROHM.html.
- Abstract(参考訳): 本稿では,モノクラーRGB(-D)ビデオからノイズや閉塞物の存在下での頑健な3次元人間の動作復元手法であるRoHMを提案する。
従来のアプローチでは、ニューラルネットワークをトレーニングして3dで直接動きをリグレッシブするか、データ駆動動作の優先順位を学習し、テスト時の最適化と組み合わせるかのどちらかだった。
前者はグローバルなコヒーレントな動きを回復せず、閉塞状態に陥り、後者は時間がかかり、局所的なミニマに傾向があり、手動のチューニングを必要とする。
これらの欠点を克服するために、拡散モデルの反復的、偏執的性質を利用する。
RoHMは、ノイズと閉塞された入力データに基づいて、一貫した大域座標で完全な可塑性運動を再構成する、新しい拡散に基づく運動モデルである。
異なるソリューション空間(ローカルとグローバルモーション)で異なるタスク(デオライズとインフィルディング)に対処しなければならない問題の複雑さを考えると、私たちはそれを2つのサブタスクに分解し、2つのモデルを学びます。
両者の相関関係を捉えるため,新しい条件付きモジュールを導入し,反復的推論手法と組み合わせた。
動作再構成や聴覚障害から空間的,時間的入力に至るまで,さまざまなタスクにRoHMを適用する。
3つの一般的なデータセットに対する大規模な実験により、我々の手法はテスト時に高速でありながら、定性的かつ定量的に最先端の手法より優れていることが示された。
コードはhttps://sanweiliti.github.io/ROHM/ROHM.htmlで入手できる。
関連論文リスト
- Score-Guided Diffusion for 3D Human Recovery [10.562998991986102]
Score-Guided Human Mesh Recovery (ScoreHMR)を提案する。
ScoreHMRはモデルフィッティングアプローチを模倣するが、拡散モデルの潜在空間におけるスコアガイダンスによって画像観察との整合が達成される。
提案手法は, (i) 単フレームモデルフィッティング, (ii) 複数視点からの再構成, (iii) ビデオシーケンスで人間を再構成することである。
論文 参考訳(メタデータ) (2024-03-14T17:56:14Z) - Dynamic Tensor Decomposition via Neural Diffusion-Reaction Processes [24.723536390322582]
テンソル分解は マルチウェイデータ解析の 重要なツールです
動的EMbedIngs fOr Dynamic Algorithm dEcomposition (DEMOTE)を提案する。
シミュレーション研究と実世界の応用の両方において,本手法の利点を示す。
論文 参考訳(メタデータ) (2023-10-30T15:49:45Z) - GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction [61.833152949826946]
本研究では,GraMMaRという3次元人体動作再構成のための新しいグラウンド・アウェア・モーション・モデルを提案する。
GraMMaRは、動きシーケンスの各時間ステップにおいて、ポーズにおける遷移の分布と、各関節面と接地面の間の相互作用を学習する。
運動と地面への距離変化との整合性を明確に促進するように訓練されている。
論文 参考訳(メタデータ) (2023-06-29T07:22:20Z) - DiffMesh: A Motion-aware Diffusion-like Framework for Human Mesh
Recovery from Videos [51.32026590626831]
ヒューマンメッシュリカバリ(Human Mesh recovery, HMR)は、さまざまな現実世界のアプリケーションに対して、リッチな人体情報を提供する。
ビデオベースのアプローチはこの問題を緩和するために時間的情報を活用する。
DiffMeshはビデオベースのHMRのための革新的な動き認識型拡散型フレームワークである。
論文 参考訳(メタデータ) (2023-03-23T16:15:18Z) - Occluded Human Body Capture with Self-Supervised Spatial-Temporal Motion
Prior [7.157324258813676]
私たちは、トレーニングとテストの両方に使用できる最初の3Dクローズドモーションデータセット(OcMotion)を構築します。
次に、空間時間層は、関節レベルの相関を学習するために設計される。
実験結果から,提案手法は,映像から高精度で一貫性のある人間の動きを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T08:15:11Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic
3D Reconstruction [14.130915525776055]
RGBDに基づくリアルタイム動的3次元再構成は、フレーム間運動推定の不正確さに悩まされる。
オクルージョンフュージョン(OcclusionFusion, OcclusionFusion)は、オクルージョンを意識した3次元運動を計算し、再構成を誘導する手法である。
本手法は,既存の単一ビューベースリアルタイム手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-15T15:09:01Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。