論文の概要: FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10740v2
- Date: Fri, 21 Jun 2024 12:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:47:43.663386
- Title: FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models
- Title(参考訳): FreeMotion: MoCap-free Human Motion Synthesis with Multimodal Large Language Models
- Authors: Zhikai Zhang, Yitang Li, Haofeng Huang, Mingxian Lin, Li Yi,
- Abstract要約: MLLMをベースとしたユーザ制御信号として自然言語命令を用いたオープンなヒューマンモーション合成について検討する。
本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。
- 参考スコア(独自算出の注目度): 19.09048969615117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion synthesis is a fundamental task in computer animation. Despite recent progress in this field utilizing deep learning and motion capture data, existing methods are always limited to specific motion categories, environments, and styles. This poor generalizability can be partially attributed to the difficulty and expense of collecting large-scale and high-quality motion data. At the same time, foundation models trained with internet-scale image and text data have demonstrated surprising world knowledge and reasoning ability for various downstream tasks. Utilizing these foundation models may help with human motion synthesis, which some recent works have superficially explored. However, these methods didn't fully unveil the foundation models' potential for this task and only support several simple actions and environments. In this paper, we for the first time, without any motion data, explore open-set human motion synthesis using natural language instructions as user control signals based on MLLMs across any motion task and environment. Our framework can be split into two stages: 1) sequential keyframe generation by utilizing MLLMs as a keyframe designer and animator; 2) motion filling between keyframes through interpolation and motion tracking. Our method can achieve general human motion synthesis for many downstream tasks. The promising results demonstrate the worth of mocap-free human motion synthesis aided by MLLMs and pave the way for future research.
- Abstract(参考訳): 人間の動き合成はコンピュータアニメーションの基本的な課題である。
ディープラーニングとモーションキャプチャーデータを利用したこの分野の最近の進歩にもかかわらず、既存の手法は常に特定の動作カテゴリ、環境、スタイルに限られている。
この貧弱な一般化性は、大規模かつ高品質なモーションデータ収集の困難さと費用によって部分的に説明できる。
同時に、インターネット規模の画像とテキストデータで訓練された基礎モデルは、様々な下流タスクに対する驚くべき世界の知識と推論能力を示している。
これらの基礎モデルを利用すると、人間の動きの合成に役立つかもしれない。
しかし、これらの手法は、このタスクに対する基礎モデルの可能性を十分に明らかにせず、いくつかの単純なアクションと環境しかサポートしていない。
本稿では,動作データなしで,自然言語命令をMLLMに基づくユーザ制御信号として使用したオープンセットの人間の動作合成を,任意の動作タスクや環境に対して初めて検討する。
私たちのフレームワークは2つの段階に分けられます。
1) MLLMをキーフレームデザイナ及びアニメーターとして活用したシーケンシャルなキーフレーム生成
2【補間・追従によるキーフレーム間の動作充足】
本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。
有望な結果は、MLLMが支援するモキャップフリーなヒトの運動合成の価値を示し、将来の研究の道を開くものである。
関連論文リスト
- MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - MotionLLM: Multimodal Motion-Language Learning with Large Language Models [69.5875073447454]
我々は,シングルヒューマン,マルチヒューマンモーション生成およびモーションキャプションを実現するために,MotionLLMを提案する。
具体的には、動作を離散LLM理解可能なトークンにエンコードし、量子化し、その結果、動作トークンとテキストトークンの両方からなる統一語彙が生成される。
我々のアプローチはスケーラブルで柔軟性があり、シングルヒューマンモーションの自動回帰生成によるマルチヒューマンモーション生成を容易に拡張できる。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人インタラクションシナリオにおいて,人の全身反応運動を合成する拡散モデルReMoSを提案する。
ReMoSはペアダンス、忍術、キックボクシング、アクロバティックといった難解な2人のシナリオにまたがってデモを行う。
また,全体動作と指動作を含む2人インタラクションのためのReMoCapデータセットも提供した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object
Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。
本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。
その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:59:24Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。