論文の概要: COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation
- arxiv url: http://arxiv.org/abs/2408.16426v1
- Date: Thu, 29 Aug 2024 10:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:12:45.213953
- Title: COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation
- Title(参考訳): COIN:人間とカメラの運動推定に先立つ制御・塗装拡散
- Authors: Jiefeng Li, Ye Yuan, Davis Rempe, Haotian Zhang, Pavlo Molchanov, Cewu Lu, Jan Kautz, Umar Iqbal,
- Abstract要約: COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 98.05046790227561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating global human motion from moving cameras is challenging due to the entanglement of human and camera motions. To mitigate the ambiguity, existing methods leverage learned human motion priors, which however often result in oversmoothed motions with misaligned 2D projections. To tackle this problem, we propose COIN, a control-inpainting motion diffusion prior that enables fine-grained control to disentangle human and camera motions. Although pre-trained motion diffusion models encode rich motion priors, we find it non-trivial to leverage such knowledge to guide global motion estimation from RGB videos. COIN introduces a novel control-inpainting score distillation sampling method to ensure well-aligned, consistent, and high-quality motion from the diffusion prior within a joint optimization framework. Furthermore, we introduce a new human-scene relation loss to alleviate the scale ambiguity by enforcing consistency among the humans, camera, and scene. Experiments on three challenging benchmarks demonstrate the effectiveness of COIN, which outperforms the state-of-the-art methods in terms of global human motion estimation and camera motion estimation. As an illustrative example, COIN outperforms the state-of-the-art method by 33% in world joint position error (W-MPJPE) on the RICH dataset.
- Abstract(参考訳): 人やカメラの動きが絡み合っているため、動くカメラから地球規模の人間の動きを推定することは困難である。
あいまいさを軽減するため、既存の手法では学習された人間の動きの先行を活用できるが、2Dプロジェクションのずれを伴う過度な動きをもたらすことが多い。
この問題に対処するために,人やカメラの動作を細粒度に制御できるコントロール・インポーティング・モーション拡散手法であるCOINを提案する。
事前学習された動き拡散モデルは、リッチな動き先行を符号化するが、そのような知識を活用してRGBビデオからグローバルな動き推定を導くことは容易ではない。
COINは, 共同最適化フレームワーク内での拡散による高精度, 整合性, 高品質な動作を保証するために, 新規な制御着色点蒸留法を導入している。
さらに,人間,カメラ,シーン間の一貫性を保ち,スケールのあいまいさを軽減するために,新たな人間とシーンの関係損失を導入する。
3つの挑戦的なベンチマーク実験により、COINの有効性が実証された。これは、グローバルな人間の動き推定とカメラの動き推定において最先端の手法より優れている。
実証的な例として、COINはRICHデータセット上の世界共同位置誤差(W-MPJPE)を33%向上させる。
関連論文リスト
- World-Grounded Human Motion Recovery via Gravity-View Coordinates [60.618543026949226]
本研究では,新しい重力-視座標系における人間のポーズ推定手法を提案する。
提案したGVシステムは、ビデオフレーム毎に自然に重力に整合し、一意に定義されている。
提案手法は,カメラ空間と地上設定の両方でよりリアルな動きを再現し,精度と速度の両方で最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-09-10T17:25:47Z) - Aligning Human Motion Generation with Human Perceptions [51.831338643012444]
本研究では,大規模人間の知覚評価データセットであるMotionPerceptと,人間の動作批判モデルであるMotionCriticを導入することにより,ギャップを埋めるデータ駆動型アプローチを提案する。
我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供しており、容易に運動生成パイプラインに統合することができる。
論文 参考訳(メタデータ) (2024-07-02T14:01:59Z) - OfCaM: Global Human Mesh Recovery via Optimization-free Camera Motion Scale Calibration [32.69343215997592]
本稿では,人間のメッシュリカバリ(HMR)モデルからの事前知識を利用して,未知のスケールファクタを直接校正するフレームワークを提案する。
提案手法は,グローバルなヒューマンメッシュ推定タスクの新たな標準を設定し,従来のSOTAに比べて,グローバルなヒューマンメッシュの動作誤差を60%削減する。
論文 参考訳(メタデータ) (2024-06-30T03:31:21Z) - GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion Prediction [10.982807572404166]
本稿では、人間の動きを生成するための新しい視線誘導型微分拡散モデルGazeMoを提案する。
提案手法はまず視線エンコーダを用いて視線と運動の特徴を抽出し,その特徴を融合させるグラフアテンションネットワークを用いる。
提案手法は,マルチモーダルな最終誤差の点で,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:10:12Z) - PACE: Human and Camera Motion Estimation from in-the-wild Videos [113.76041632912577]
本研究では,移動カメラのグローバルシーンにおける人間の動きを推定する手法を提案する。
これは、ビデオ中の人間とカメラの動きが混ざり合っているため、非常に難しい作業である。
本研究では,人体とカメラの動作を前景の人体と背景の両方の特徴を用いてアンハングリングする共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T19:04:14Z) - Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。
カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文 参考訳(メタデータ) (2023-02-24T18:59:15Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z) - 3D Human Motion Estimation via Motion Compression and Refinement [27.49664453166726]
我々はRGBビデオシーケンスからスムーズで正確な3次元ポーズとモーション推定を生成する技術を開発した。
本手法は,変動オートエンコーダ(MEVA)による動作推定と呼ばれ,人間の動作の時間的シーケンスをスムーズな動作表現に分解する。
論文 参考訳(メタデータ) (2020-08-09T19:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。