論文の概要: Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation
- arxiv url: http://arxiv.org/abs/2412.13111v1
- Date: Tue, 17 Dec 2024 17:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:25.885476
- Title: Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation
- Title(参考訳): Motion-2-to-3: 2Dモーションデータを活用した3Dモーション生成
- Authors: Huaijin Pi, Ruoxi Guo, Zehong Shen, Qing Shuai, Zechen Hu, Zhumei Wang, Yajiao Dong, Ruizhen Hu, Taku Komura, Sida Peng, Xiaowei Zhou,
- Abstract要約: 人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。
本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。
提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
- 参考スコア(独自算出の注目度): 43.915871360698546
- License:
- Abstract: Text-driven human motion synthesis is capturing significant attention for its ability to effortlessly generate intricate movements from abstract text cues, showcasing its potential for revolutionizing motion design not only in film narratives but also in virtual reality experiences and computer game development. Existing methods often rely on 3D motion capture data, which require special setups resulting in higher costs for data acquisition, ultimately limiting the diversity and scope of human motion. In contrast, 2D human videos offer a vast and accessible source of motion data, covering a wider range of styles and activities. In this paper, we explore leveraging 2D human motion extracted from videos as an alternative data source to improve text-driven 3D motion generation. Our approach introduces a novel framework that disentangles local joint motion from global movements, enabling efficient learning of local motion priors from 2D data. We first train a single-view 2D local motion generator on a large dataset of text-motion pairs. To enhance this model to synthesize 3D motion, we fine-tune the generator with 3D data, transforming it into a multi-view generator that predicts view-consistent local joint motion and root dynamics. Experiments on the HumanML3D dataset and novel text prompts demonstrate that our method efficiently utilizes 2D data, supporting realistic 3D human motion generation and broadening the range of motion types it supports. Our code will be made publicly available at https://zju3dv.github.io/Motion-2-to-3/.
- Abstract(参考訳): テキスト駆動型ヒューマンモーション合成は、抽象的なテキストキューから複雑な動きを積極的に生成する能力において重要な注目を集めており、映画物語だけでなく、バーチャルリアリティ体験やコンピュータゲーム開発においても、モーションデザインに革命をもたらす可能性を示している。
既存の方法は、しばしば3Dモーションキャプチャーデータに依存しており、特別な設定を必要とするため、データ取得のコストが高くなり、最終的には人間の動きの多様性と範囲が制限される。
対照的に、人間の2Dビデオは広範にアクセス可能なモーションデータを提供し、幅広いスタイルや活動をカバーしている。
本稿では,動画から抽出した2次元モーションを代替データ源として活用し,テキスト駆動型3次元モーション生成の改善について検討する。
本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する手法を提案する。
まず,テキスト・モーション・ペアの大規模なデータセット上で,一視点2Dローカル・モーション・ジェネレータを訓練する。
このモデルを強化して3次元運動を合成するため、3次元データで生成体を微調整し、ビューに一貫性のある局所的な関節運動とルートダイナミクスを予測する多視点生成体に変換する。
HumanML3Dデータセットと新しいテキストプロンプトの実験により,本手法は2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大することを示した。
私たちのコードはhttps://zju3dv.github.io/Motion-2-to-3/で公開されます。
関連論文リスト
- Lifting Motion to the 3D World via 2D Diffusion [19.64801640086107]
トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。
MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
論文 参考訳(メタデータ) (2024-11-27T23:26:56Z) - Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [90.39860012099393]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。
機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。
拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文 参考訳(メタデータ) (2024-10-14T17:56:19Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Holistic-Motion2D: Scalable Whole-body Human Motion Generation in 2D Space [78.95579123031733]
2次元体全体の動き生成のための総合的かつ大規模ベンチマークであるtextbfHolistic-Motion2D$を提示する。
また、下流アプリケーションにおける2Dモーションの有用性と3Dモーションへのリフトの可能性を強調した。
論文 参考訳(メタデータ) (2024-06-17T06:31:19Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。