論文の概要: Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture
- arxiv url: http://arxiv.org/abs/2503.03222v2
- Date: Thu, 06 Mar 2025 14:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:29.097116
- Title: Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture
- Title(参考訳): Mocap-2-to-3:3次元モーションキャプチャのための2次元拡散に基づく事前訓練モデル
- Authors: Zhumei Wang, Zechen Hu, Ruoxi Guo, Huaijin Pi, Ziyong Feng, Sida Peng, Xiaowei Zhou,
- Abstract要約: Mocap-2-to-3は複雑な3D動作を2Dポーズに分解する新しいフレームワークである。
我々は2次元データを活用し,多様なシナリオにおける3次元運動再構成を向上する。
実世界のデータセット上でのモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 31.82852393452607
- License:
- Abstract: Recovering absolute poses in the world coordinate system from monocular views presents significant challenges. Two primary issues arise in this context. Firstly, existing methods rely on 3D motion data for training, which requires collection in limited environments. Acquiring such 3D labels for new actions in a timely manner is impractical, severely restricting the model's generalization capabilities. In contrast, 2D poses are far more accessible and easier to obtain. Secondly, estimating a person's absolute position in metric space from a single viewpoint is inherently more complex. To address these challenges, we introduce Mocap-2-to-3, a novel framework that decomposes intricate 3D motions into 2D poses, leveraging 2D data to enhance 3D motion reconstruction in diverse scenarios and accurately predict absolute positions in the world coordinate system. We initially pretrain a single-view diffusion model with extensive 2D data, followed by fine-tuning a multi-view diffusion model for view consistency using publicly available 3D data. This strategy facilitates the effective use of large-scale 2D data. Additionally, we propose an innovative human motion representation that decouples local actions from global movements and encodes geometric priors of the ground, ensuring the generative model learns accurate motion priors from 2D data. During inference, this allows for the gradual recovery of global movements, resulting in more plausible positioning. We evaluate our model's performance on real-world datasets, demonstrating superior accuracy in motion and absolute human positioning compared to state-of-the-art methods, along with enhanced generalization and scalability. Our code will be made publicly available.
- Abstract(参考訳): モノクラービューから世界座標系における絶対的なポーズを復元することは、重大な課題である。
この文脈で2つの主要な問題が生じる。
まず、既存の手法は訓練のための3Dモーションデータに依存しており、限られた環境での収集を必要とする。
このような3Dラベルをタイムリーに新しいアクションに取得することは非現実的であり、モデルの一般化能力を著しく制限する。
対照的に、2Dのポーズはよりアクセスしやすく、入手しやすい。
第二に、単一の視点から距離空間における人の絶対的な位置を推定することは本質的により複雑である。
これらの課題に対処するために,複雑な3次元動きを2次元ポーズに分解する新しいフレームワークであるMocap-2-to-3を導入する。
まず,広義の2次元データを用いた単一視点拡散モデルの事前学習を行い,その後,公開されている3次元データを用いた複数視点拡散モデルの微調整を行った。
この戦略は大規模2次元データの有効利用を促進する。
さらに、グローバルな動きから局所的な動きを分離し、地上の幾何学的先行を符号化し、生成モデルが2次元データから正確な動きの先行を確実に学習する、革新的な人間の動き表現を提案する。
推論の間、これは地球運動の段階的な回復を可能にし、より確実な位置付けをもたらす。
実世界のデータセット上でのモデルの性能評価を行い、最先端の手法に比べて動作精度と絶対的位置決めの精度が優れ、さらに一般化と拡張性も向上した。
私たちのコードは公開されます。
関連論文リスト
- GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Lifting Motion to the 3D World via 2D Diffusion [19.64801640086107]
トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。
MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
論文 参考訳(メタデータ) (2024-11-27T23:26:56Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated
Convolution [34.301501457959056]
本稿では,2次元関節を3次元に変換するために,ゲート型畳み込みモジュールを用いた時間回帰ネットワークを提案する。
また, 正規化ポーズを大域軌跡に変換するために, 単純かつ効果的な局所化手法も実施した。
提案手法は,最先端の2D-to-3Dポーズ推定法よりも優れている。
論文 参考訳(メタデータ) (2020-10-31T04:35:24Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。