Fugu-MT 論文翻訳(概要): COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation

論文の概要: COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation

arxiv url: http://arxiv.org/abs/2408.16426v1
Date: Thu, 29 Aug 2024 10:36:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 14:12:45.213953
Title: COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation
Title（参考訳）: COIN:人間とカメラの運動推定に先立つ制御・塗装拡散
Authors: Jiefeng Li, Ye Yuan, Davis Rempe, Haotian Zhang, Pavlo Molchanov, Cewu Lu, Jan Kautz, Umar Iqbal,
Abstract要約: COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。 COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
参考スコア（独自算出の注目度）: 98.05046790227561
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating global human motion from moving cameras is challenging due to the entanglement of human and camera motions. To mitigate the ambiguity, existing methods leverage learned human motion priors, which however often result in oversmoothed motions with misaligned 2D projections. To tackle this problem, we propose COIN, a control-inpainting motion diffusion prior that enables fine-grained control to disentangle human and camera motions. Although pre-trained motion diffusion models encode rich motion priors, we find it non-trivial to leverage such knowledge to guide global motion estimation from RGB videos. COIN introduces a novel control-inpainting score distillation sampling method to ensure well-aligned, consistent, and high-quality motion from the diffusion prior within a joint optimization framework. Furthermore, we introduce a new human-scene relation loss to alleviate the scale ambiguity by enforcing consistency among the humans, camera, and scene. Experiments on three challenging benchmarks demonstrate the effectiveness of COIN, which outperforms the state-of-the-art methods in terms of global human motion estimation and camera motion estimation. As an illustrative example, COIN outperforms the state-of-the-art method by 33% in world joint position error (W-MPJPE) on the RICH dataset.
Abstract（参考訳）: 人やカメラの動きが絡み合っているため、動くカメラから地球規模の人間の動きを推定することは困難である。あいまいさを軽減するため、既存の手法では学習された人間の動きの先行を活用できるが、2Dプロジェクションのずれを伴う過度な動きをもたらすことが多い。この問題に対処するために,人やカメラの動作を細粒度に制御できるコントロール・インポーティング・モーション拡散手法であるCOINを提案する。事前学習された動き拡散モデルは、リッチな動き先行を符号化するが、そのような知識を活用してRGBビデオからグローバルな動き推定を導くことは容易ではない。 COINは, 共同最適化フレームワーク内での拡散による高精度, 整合性, 高品質な動作を保証するために, 新規な制御着色点蒸留法を導入している。さらに,人間,カメラ,シーン間の一貫性を保ち,スケールのあいまいさを軽減するために,新たな人間とシーンの関係損失を導入する。 3つの挑戦的なベンチマーク実験により、COINの有効性が実証された。これは、グローバルな人間の動き推定とカメラの動き推定において最先端の手法より優れている。実証的な例として、COINはRICHデータセット上の世界共同位置誤差(W-MPJPE)を33%向上させる。

関連論文リスト

Deblur-Avatar: Animatable Avatars from Motion-Blurred Monocular Videos [64.10307207290039]
本研究では,モーションブルモノクロビデオ入力から高忠実でアニマタブルな3次元アバターをモデリングするための新しいフレームワークを提案する。被曝時の人体運動軌跡を明示的にモデル化することにより、鋭く高品質な人体アバターを再構築するために、軌跡と3Dガウスアンを共同で最適化する。
論文参考訳（メタデータ） (2025-01-23T02:31:57Z)
Motion Diffusion-Guided 3D Global HMR from a Dynamic Camera [3.6948631725065355]
拡散最適化を用いた新しい3次元大域HMR法DiffOptを提案する。我々の重要な洞察は、動き拡散モデル(MDM)のような人間の動き生成の最近の進歩は、コヒーレントな人間の動きの強い先行を含むことである。我々はDiffOptをGlobal 3D Human Pose and Shape in the Wildの電磁データベースからビデオシーケンスで検証した。
論文参考訳（メタデータ） (2024-11-15T21:09:40Z)
World-Grounded Human Motion Recovery via Gravity-View Coordinates [60.618543026949226]
本研究では,新しい重力-視座標系における人間のポーズ推定手法を提案する。提案したGVシステムは、ビデオフレーム毎に自然に重力に整合し、一意に定義されている。提案手法は,カメラ空間と地上設定の両方でよりリアルな動きを再現し,精度と速度の両方で最先端の手法より優れる。
論文参考訳（メタデータ） (2024-09-10T17:25:47Z)
Aligning Human Motion Generation with Human Perceptions [51.831338643012444]
本研究では,大規模人間の知覚評価データセットであるMotionPerceptと,人間の動作批判モデルであるMotionCriticを導入することにより,ギャップを埋めるデータ駆動型アプローチを提案する。我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供しており、容易に運動生成パイプラインに統合することができる。
論文参考訳（メタデータ） (2024-07-02T14:01:59Z)
OfCaM: Global Human Mesh Recovery via Optimization-free Camera Motion Scale Calibration [32.69343215997592]
本稿では,人間のメッシュリカバリ(HMR)モデルからの事前知識を利用して,未知のスケールファクタを直接校正するフレームワークを提案する。提案手法は,グローバルなヒューマンメッシュ推定タスクの新たな標準を設定し,従来のSOTAに比べて,グローバルなヒューマンメッシュの動作誤差を60%削減する。
論文参考訳（メタデータ） (2024-06-30T03:31:21Z)
GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion Prediction [10.982807572404166]
本稿では、人間の動きを生成するための新しい視線誘導型微分拡散モデルGazeMoを提案する。提案手法はまず視線エンコーダを用いて視線と運動の特徴を抽出し,その特徴を融合させるグラフアテンションネットワークを用いる。提案手法は,マルチモーダルな最終誤差の点で,最先端の手法よりも高い性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:10:12Z)
PACE: Human and Camera Motion Estimation from in-the-wild Videos [113.76041632912577]
本研究では,移動カメラのグローバルシーンにおける人間の動きを推定する手法を提案する。これは、ビデオ中の人間とカメラの動きが混ざり合っているため、非常に難しい作業である。本研究では,人体とカメラの動作を前景の人体と背景の両方の特徴を用いてアンハングリングする共同最適化フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-20T19:04:14Z)
Decoupling Human and Camera Motion from Videos in the Wild [67.39432972193929]
本研究では,野生の映像から地球規模の人間の軌道を再構築する手法を提案する。カメラと人間の動きを分離することで、人間を同じ世界座標系に配置することができる。
論文参考訳（メタデータ） (2023-02-24T18:59:15Z)
GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文参考訳（メタデータ） (2021-12-02T18:59:54Z)
3D Human Motion Estimation via Motion Compression and Refinement [27.49664453166726]
我々はRGBビデオシーケンスからスムーズで正確な3次元ポーズとモーション推定を生成する技術を開発した。本手法は,変動オートエンコーダ(MEVA)による動作推定と呼ばれ,人間の動作の時間的シーケンスをスムーズな動作表現に分解する。
論文参考訳（メタデータ） (2020-08-09T19:02:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。