Fugu-MT 論文翻訳(概要): Lifting Motion to the 3D World via 2D Diffusion

論文の概要: Lifting Motion to the 3D World via 2D Diffusion

arxiv url: http://arxiv.org/abs/2411.18808v1
Date: Wed, 27 Nov 2024 23:26:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.657557
Title: Lifting Motion to the 3D World via 2D Diffusion
Title（参考訳）: 2次元拡散による3次元世界へのリフティング運動
Authors: Jiaman Li, C. Karen Liu, Jiajun Wu,
Abstract要約: トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。 MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
参考スコア（独自算出の注目度）: 19.64801640086107
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating 3D motion from 2D observations is a long-standing research challenge. Prior work typically requires training on datasets containing ground truth 3D motions, limiting their applicability to activities well-represented in existing motion capture data. This dependency particularly hinders generalization to out-of-distribution scenarios or subjects where collecting 3D ground truth is challenging, such as complex athletic movements or animal motion. We introduce MVLift, a novel approach to predict global 3D motion -- including both joint rotations and root trajectories in the world coordinate system -- using only 2D pose sequences for training. Our multi-stage framework leverages 2D motion diffusion models to progressively generate consistent 2D pose sequences across multiple views, a key step in recovering accurate global 3D motion. MVLift generalizes across various domains, including human poses, human-object interactions, and animal poses. Despite not requiring 3D supervision, it outperforms prior work on five datasets, including those methods that require 3D supervision.
Abstract（参考訳）: 2次元の観測から3Dの動きを推定することは、長年の研究課題である。これまでの作業では、地上の真理3Dモーションを含むデータセットのトレーニングが必要で、既存のモーションキャプチャーデータでよく表現されたアクティビティへの適用性が制限される。この依存は、複雑な運動運動や動物の動きなどの3D地上の真実の収集が困難であるような、アウト・オブ・ディストリビューションのシナリオや主題への一般化を妨げている。 MVLiftは、世界座標系における関節回転とルート軌道の両方を含む、グローバルな3次元運動を予測するための新しいアプローチであり、トレーニングには2次元ポーズシーケンスのみを使用する。多段階のフレームワークは、2次元の運動拡散モデルを利用して、複数のビューにまたがる一貫した2次元ポーズシーケンスを段階的に生成する。 MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。 3Dの監督を必要としないにもかかわらず、3Dの監督を必要とする手法を含む5つのデータセットの先行作業を上回っている。

関連論文リスト

xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion [4.878192303432336]
DIOD-3Dは2Dモーションを用いた3Dデータにおけるマルチオブジェクト発見のための最初のベースラインである。 xMODは、常に2Dモーションキューを使用しながら、2Dと3Dデータを統合したクロスプラットフォームのトレーニングフレームワークである。提案手法は,全データセットの2次元オブジェクト発見状態と比較すると,大幅な性能向上をもたらす。
論文参考訳（メタデータ） (2025-03-19T09:20:35Z)
Mocap-2-to-3: Lifting 2D Diffusion-Based Pretrained Models for 3D Motion Capture [31.82852393452607]
Mocap-2-to-3は複雑な3D動作を2Dポーズに分解する新しいフレームワークである。我々は2次元データを活用し,多様なシナリオにおける3次元運動再構成を向上する。実世界のデータセット上でのモデルの性能を評価する。
論文参考訳（メタデータ） (2025-03-05T06:32:49Z)
Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文参考訳（メタデータ） (2024-12-17T17:34:52Z)
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。 3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文参考訳（メタデータ） (2024-12-10T18:55:13Z)
Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-07-18T17:59:08Z)
Investigating the impact of 2D gesture representation on co-speech gesture generation [5.408549711581793]
訓練データ(2次元または3次元の関節座標)の寸法がマルチモーダル音声合成モデルの性能に及ぼす影響を評価する。
論文参考訳（メタデータ） (2024-06-21T12:59:20Z)
SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。 3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文参考訳（メタデータ） (2024-04-05T17:59:25Z)
Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ) 拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。 CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文参考訳（メタデータ） (2023-12-18T07:44:40Z)
MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。 MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文参考訳（メタデータ） (2023-10-23T09:05:18Z)
Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。最近、研究者は焦点を2Dから3Dにシフトし始めた。 3Dデータの表現は、非常に大きな課題をもたらします。
論文参考訳（メタデータ） (2022-10-27T17:59:50Z)
MotionBERT: A Unified Perspective on Learning Human Motion Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文参考訳（メタデータ） (2022-10-12T19:46:25Z)
MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文参考訳（メタデータ） (2021-12-19T07:52:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。