論文の概要: COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation
- arxiv url: http://arxiv.org/abs/2408.16426v1
- Date: Thu, 29 Aug 2024 10:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:12:45.213953
- Title: COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation
- Title(参考訳): COIN:人間とカメラの運動推定に先立つ制御・塗装拡散
- Authors: Jiefeng Li, Ye Yuan, Davis Rempe, Haotian Zhang, Pavlo Molchanov, Cewu Lu, Jan Kautz, Umar Iqbal,
- Abstract要約: COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 98.05046790227561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating global human motion from moving cameras is challenging due to the entanglement of human and camera motions. To mitigate the ambiguity, existing methods leverage learned human motion priors, which however often result in oversmoothed motions with misaligned 2D projections. To tackle this problem, we propose COIN, a control-inpainting motion diffusion prior that enables fine-grained control to disentangle human and camera motions. Although pre-trained motion diffusion models encode rich motion priors, we find it non-trivial to leverage such knowledge to guide global motion estimation from RGB videos. COIN introduces a novel control-inpainting score distillation sampling method to ensure well-aligned, consistent, and high-quality motion from the diffusion prior within a joint optimization framework. Furthermore, we introduce a new human-scene relation loss to alleviate the scale ambiguity by enforcing consistency among the humans, camera, and scene. Experiments on three challenging benchmarks demonstrate the effectiveness of COIN, which outperforms the state-of-the-art methods in terms of global human motion estimation and camera motion estimation. As an illustrative example, COIN outperforms the state-of-the-art method by 33% in world joint position error (W-MPJPE) on the RICH dataset.
- Abstract(参考訳): 人やカメラの動きが絡み合っているため、動くカメラから地球規模の人間の動きを推定することは困難である。
あいまいさを軽減するため、既存の手法では学習された人間の動きの先行を活用できるが、2Dプロジェクションのずれを伴う過度な動きをもたらすことが多い。
この問題に対処するために,人やカメラの動作を細粒度に制御できるコントロール・インポーティング・モーション拡散手法であるCOINを提案する。
事前学習された動き拡散モデルは、リッチな動き先行を符号化するが、そのような知識を活用してRGBビデオからグローバルな動き推定を導くことは容易ではない。
COINは, 共同最適化フレームワーク内での拡散による高精度, 整合性, 高品質な動作を保証するために, 新規な制御着色点蒸留法を導入している。
さらに,人間,カメラ,シーン間の一貫性を保ち,スケールのあいまいさを軽減するために,新たな人間とシーンの関係損失を導入する。
3つの挑戦的なベンチマーク実験により、COINの有効性が実証された。これは、グローバルな人間の動き推定とカメラの動き推定において最先端の手法より優れている。
実証的な例として、COINはRICHデータセット上の世界共同位置誤差(W-MPJPE)を33%向上させる。
関連論文リスト
- Aligning Human Motion Generation with Human Perceptions [51.831338643012444]
本研究では,大規模人間の知覚評価データセットであるMotionPerceptと,人間の動作批判モデルであるMotionCriticを導入することにより,ギャップを埋めるデータ駆動型アプローチを提案する。
我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供しており、容易に運動生成パイプラインに統合することができる。
論文 参考訳(メタデータ) (2024-07-02T14:01:59Z) - OfCaM: Global Human Mesh Recovery via Optimization-free Camera Motion Scale Calibration [32.69343215997592]
本稿では,人間のメッシュリカバリ(HMR)モデルからの事前知識を利用して,未知のスケールファクタを直接校正するフレームワークを提案する。
提案手法は,グローバルなヒューマンメッシュ推定タスクの新たな標準を設定し,従来のSOTAに比べて,グローバルなヒューマンメッシュの動作誤差を60%削減する。
論文 参考訳(メタデータ) (2024-06-30T03:31:21Z) - PACE: Human and Camera Motion Estimation from in-the-wild Videos [113.76041632912577]
本研究では,移動カメラのグローバルシーンにおける人間の動きを推定する手法を提案する。
これは、ビデオ中の人間とカメラの動きが混ざり合っているため、非常に難しい作業である。
本研究では,人体とカメラの動作を前景の人体と背景の両方の特徴を用いてアンハングリングする共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T19:04:14Z) - Motion-DVAE: Unsupervised learning for fast human motion denoising [18.432026846779372]
本研究では,人間の動作の短期的依存を捉えるための動きであるMotion-DVAEを紹介する。
我々は、Motion-DVAEとともに、回帰と最適化に基づくアプローチを統一する教師なし学習型復調手法を導入する。
論文 参考訳(メタデータ) (2023-06-09T12:18:48Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - 3D Human Motion Estimation via Motion Compression and Refinement [27.49664453166726]
我々はRGBビデオシーケンスからスムーズで正確な3次元ポーズとモーション推定を生成する技術を開発した。
本手法は,変動オートエンコーダ(MEVA)による動作推定と呼ばれ,人間の動作の時間的シーケンスをスムーズな動作表現に分解する。
論文 参考訳(メタデータ) (2020-08-09T19:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。