論文の概要: Unimotion: Unifying 3D Human Motion Synthesis and Understanding
- arxiv url: http://arxiv.org/abs/2409.15904v2
- Date: Mon, 30 Sep 2024 10:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 19:21:13.730871
- Title: Unimotion: Unifying 3D Human Motion Synthesis and Understanding
- Title(参考訳): Unimotion: 人間の3Dモーションの合成と理解を統一する
- Authors: Chuqiao Li, Julian Chibane, Yannan He, Naama Pearl, Andreas Geiger, Gerard Pons-moll,
- Abstract要約: フレキシブル・モーション・コントロールとフレームレベルのモーション・理解を両立できる初のマルチタスク・ヒューマン・モーション・モデルであるUnimotionを導入する。
Unimotionは、グローバルテキストやローカルフレームレベルのテキストでモーションを制御できる。
- 参考スコア(独自算出の注目度): 47.18338511861108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Unimotion, the first unified multi-task human motion model capable of both flexible motion control and frame-level motion understanding. While existing works control avatar motion with global text conditioning, or with fine-grained per frame scripts, none can do both at once. In addition, none of the existing works can output frame-level text paired with the generated poses. In contrast, Unimotion allows to control motion with global text, or local frame-level text, or both at once, providing more flexible control for users. Importantly, Unimotion is the first model which by design outputs local text paired with the generated poses, allowing users to know what motion happens and when, which is necessary for a wide range of applications. We show Unimotion opens up new applications: 1.) Hierarchical control, allowing users to specify motion at different levels of detail, 2.) Obtaining motion text descriptions for existing MoCap data or YouTube videos 3.) Allowing for editability, generating motion from text, and editing the motion via text edits. Moreover, Unimotion attains state-of-the-art results for the frame-level text-to-motion task on the established HumanML3D dataset. The pre-trained model and code are available available on our project page at https://coral79.github.io/uni-motion/.
- Abstract(参考訳): フレキシブル・モーション・コントロールとフレームレベルのモーション・理解を両立できる初のマルチタスク・ヒューマン・モーション・モデルであるUnimotionを導入する。
既存の作業は、グローバルテキストコンディショニングやフレーム毎のきめ細かいスクリプトでアバターの動きを制御するが、一度に両方を行うことはできない。
さらに、既存の作業では、生成されたポーズと組み合わせたフレームレベルのテキストを出力することはできない。
対照的に、Unimotionはグローバルテキストやローカルフレームレベルのテキストでモーションを制御できる。
重要なことに、Unimotionは、生成したポーズとペアのローカルテキストを設計することで、ユーザーがどんな動きが起こるか、そしてそれが広範囲のアプリケーションに必要かを知ることができる最初のモデルである。
私たちはUnimotionが新しいアプリケーションを開くことを示しています。
1 階層的な制御で、ユーザーは異なるレベルの細部で動きを指定できる。
2既存のMoCapデータ又はYouTubeビデオのモーションテキスト記述の取得
3. 編集性、テキストからの動作の生成、テキスト編集による動作の編集。
さらに、Unimotionは、確立されたHumanML3Dデータセット上でフレームレベルのテキスト・トゥ・モーションタスクの最先端の結果を得る。
事前トレーニングされたモデルとコードは、プロジェクトのページhttps://coral79.github.io/uni-motion/.com/で利用可能です。
関連論文リスト
- MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
人間の3D動作を前提として,テキストに記述された編集動作を生成することが目的である。
課題には、トレーニングデータの欠如と、ソースの動きを忠実に編集するモデルの設計が含まれる。
我々は、ソースモーションの形でトリップレットのデータセットを半自動で収集する手法を構築し、(ii)ターゲットモーションと(iii)編集テキストを作成し、新しいMotionFixデータセットを作成する。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文 参考訳(メタデータ) (2022-09-01T10:34:57Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。