論文の概要: Strong and Controllable 3D Motion Generation
- arxiv url: http://arxiv.org/abs/2501.18726v1
- Date: Thu, 30 Jan 2025 20:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:03.028960
- Title: Strong and Controllable 3D Motion Generation
- Title(参考訳): 強靭で制御可能な3次元モーションジェネレーション
- Authors: Canxuan Gang,
- Abstract要約: 本研究では,従来のテキスト・ツー・モーション生成法と比較して,人間の動作の高精度な関節レベル制御を可能にするモーションコントロールネットを提案する。
これらのコントリビューションは、テキスト・トゥ・モーション生成の大幅な進歩を示し、現実世界のアプリケーションに近づいた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Human motion generation is a significant pursuit in generative computer vision with widespread applications in film-making, video games, AR/VR, and human-robot interaction. Current methods mainly utilize either diffusion-based generative models or autoregressive models for text-to-motion generation. However, they face two significant challenges: (1) The generation process is time-consuming, posing a major obstacle for real-time applications such as gaming, robot manipulation, and other online settings. (2) These methods typically learn a relative motion representation guided by text, making it difficult to generate motion sequences with precise joint-level control. These challenges significantly hinder progress and limit the real-world application of human motion generation techniques. To address this gap, we propose a simple yet effective architecture consisting of two key components. Firstly, we aim to improve hardware efficiency and computational complexity in transformer-based diffusion models for human motion generation. By customizing flash linear attention, we can optimize these models specifically for generating human motion efficiently. Furthermore, we will customize the consistency model in the motion latent space to further accelerate motion generation. Secondly, we introduce Motion ControlNet, which enables more precise joint-level control of human motion compared to previous text-to-motion generation methods. These contributions represent a significant advancement for text-to-motion generation, bringing it closer to real-world applications.
- Abstract(参考訳): 人間のモーション生成は、映画製作、ビデオゲーム、AR/VR、人間とロボットの相互作用に広く応用されている、生成的コンピュータビジョンにおいて重要な追求である。
現在の手法は主に拡散に基づく生成モデルまたは自動回帰モデルを用いてテキスト・ツー・モーション生成を行う。
1)生成プロセスは時間がかかり、ゲーム、ロボット操作、その他のオンライン設定などのリアルタイムアプリケーションにとって大きな障害となる。
2) これらの手法は典型的にはテキストで導かれる相対的な動きの表現を学習し, 高精度な関節レベル制御による動き列の生成を困難にしている。
これらの課題は、人間のモーション生成技術の進歩を著しく妨げ、現実の応用を制限する。
このギャップに対処するため、我々は2つの重要なコンポーネントからなるシンプルで効果的なアーキテクチャを提案する。
まず,人間の動作生成のためのトランスフォーマーベース拡散モデルにおいて,ハードウェア効率の向上と計算複雑性の向上を目指す。
フラッシュリニアアテンションをカスタマイズすることで、人間の動きを効率的に生成するためにこれらのモデルを最適化することができる。
さらに、動作遅延空間における一貫性モデルをカスタマイズして、運動生成をさらに加速する。
第2に,従来のテキスト・ツー・モーション生成法と比較して,人間の動作を高精度に制御できるモーションコントロールネットを導入する。
これらのコントリビューションは、テキスト・トゥ・モーション生成の大幅な進歩を示し、現実世界のアプリケーションに近づいた。
関連論文リスト
- Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [90.39860012099393]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。
機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。
拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文 参考訳(メタデータ) (2024-10-14T17:56:19Z) - DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DARTは、リアルタイムテキスト駆動モーション制御のための拡散型自動回帰モーションプリミティブモデルである。
動作合成タスクにおいて,モデルの汎用性と優れた性能を実証し,両手法に有効なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Make-An-Animation: Large-Scale Text-conditional 3D Human Motion
Generation [47.272177594990104]
テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。
大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。
テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
論文 参考訳(メタデータ) (2023-05-16T17:58:43Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。