論文の概要: Realistic Human Motion Generation with Cross-Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.10993v3
- Date: Mon, 5 Aug 2024 01:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:55:54.584055
- Title: Realistic Human Motion Generation with Cross-Diffusion Models
- Title(参考訳): 交叉拡散モデルを用いたリアルな人間運動生成
- Authors: Zeping Ren, Shaoli Huang, Xiu Li,
- Abstract要約: クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
- 参考スコア(独自算出の注目度): 30.854425772128568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Cross Human Motion Diffusion Model (CrossDiff), a novel approach for generating high-quality human motion based on textual descriptions. Our method integrates 3D and 2D information using a shared transformer network within the training of the diffusion model, unifying motion noise into a single feature space. This enables cross-decoding of features into both 3D and 2D motion representations, regardless of their original dimension. The primary advantage of CrossDiff is its cross-diffusion mechanism, which allows the model to reverse either 2D or 3D noise into clean motion during training. This capability leverages the complementary information in both motion representations, capturing intricate human movement details often missed by models relying solely on 3D information. Consequently, CrossDiff effectively combines the strengths of both representations to generate more realistic motion sequences. In our experiments, our model demonstrates competitive state-of-the-art performance on text-to-motion benchmarks. Moreover, our method consistently provides enhanced motion generation quality, capturing complex full-body movement intricacies. Additionally, with a pretrained model,our approach accommodates using in the wild 2D motion data without 3D motion ground truth during training to generate 3D motion, highlighting its potential for broader applications and efficient use of available data resources. Project page: https://wonderno.github.io/CrossDiff-webpage/.
- Abstract(参考訳): テキスト記述に基づく高品質な人間の動きを生成する新しい手法であるクロスヒューマンモーション拡散モデル(CrossDiff)を紹介する。
本手法は,拡散モデルのトレーニングにおいて,共用変圧器ネットワークを用いて3次元情報と2次元情報を統合し,単一の特徴空間に運動雑音を統一する。
これにより、元の次元に関係なく、3Dと2Dの両方のモーション表現に特徴をクロスデコードすることができる。
CrossDiffの主な利点は、クロス拡散機構で、2Dノイズまたは3Dノイズをトレーニング中にクリーンな動作に戻すことができる。
この能力は両動作表現の相補的な情報を活用し、3D情報のみに依存するモデルによってしばしば見逃される複雑な人間の動きの詳細をキャプチャする。
その結果、CrossDiffは両方の表現の強みを効果的に組み合わせ、より現実的な動き列を生成する。
本実験では,テキスト・トゥ・モーション・ベンチマークにおける最先端性能の競争力を示す。
さらに,本手法は,複雑な全身運動の複雑さを捉えることによって,運動生成の質を向上する。
さらに、事前訓練されたモデルでは、トレーニング中に3Dモーショングラウンドの真理を示さずに野生の2Dモーションデータを使用することで、3Dモーションを生成することが可能となり、より広範な応用の可能性と利用可能なデータリソースの効率的な利用が強調される。
プロジェクトページ:https://wonderno.github.io/CrossDiff-webpage/.com
関連論文リスト
- MagicArticulate: Make Your 3D Models Articulation-Ready [109.35703811628045]
静的な3Dモデルを自動的に調音可能なアセットに変換する効果的なフレームワークであるMagicArticulateを提案する。
まず,高品質な調音アノテーションを備えた33k以上の3Dモデルを含むArticulation-averseベンチマークを紹介し,XL-XLから慎重にキュレートする。
大規模な実験では、MagicArticulateはさまざまなオブジェクトカテゴリで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-17T18:53:27Z) - DAViD: Modeling Dynamic Affordance of 3D Objects using Pre-trained Video Diffusion Models [9.103840202072336]
本稿では,合成2Dビデオから3次元ダイナミックアプライアンスを学習する手法を提案する。
具体的には、まず3Dオブジェクトから2D HOIビデオを生成し、次にそれを3Dに持ち上げて4D HOIサンプルを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-14T18:59:59Z) - Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。
本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。
提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文 参考訳(メタデータ) (2024-12-17T17:34:52Z) - Lifting Motion to the 3D World via 2D Diffusion [19.64801640086107]
トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。
MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
論文 参考訳(メタデータ) (2024-11-27T23:26:56Z) - Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。
Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-06-25T14:42:51Z) - Investigating the impact of 2D gesture representation on co-speech gesture generation [5.408549711581793]
訓練データ(2次元または3次元の関節座標)の寸法がマルチモーダル音声合成モデルの性能に及ぼす影響を評価する。
論文 参考訳(メタデータ) (2024-06-21T12:59:20Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文 参考訳(メタデータ) (2023-10-23T09:05:18Z) - MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。
異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。
本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文 参考訳(メタデータ) (2023-04-17T13:49:04Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。