論文の概要: MotionGPT: Finetuned LLMs Are General-Purpose Motion Generators
- arxiv url: http://arxiv.org/abs/2306.10900v2
- Date: Mon, 18 Mar 2024 04:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 04:22:24.052921
- Title: MotionGPT: Finetuned LLMs Are General-Purpose Motion Generators
- Title(参考訳): MotionGPT:精巧なLLMは汎用モーションジェネレータ
- Authors: Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, Wanli Ouyang,
- Abstract要約: 本稿では,マルチモーダル制御信号を利用するMotionGPT(Motion General-Purpose generaTor)を提案する。
まず,マルチモーダル制御信号を離散符号に量子化し,それらを統一的なプロンプト命令で定式化する。
我々のMotionGPTは、LLMパラメータのわずか0.4%をチューニングすることで、マルチモーダル制御信号を用いた統一された人の動き生成モデルを示す。
- 参考スコア(独自算出の注目度): 108.67006263044772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic human motion from given action descriptions has experienced significant advancements because of the emerging requirement of digital humans. While recent works have achieved impressive results in generating motion directly from textual action descriptions, they often support only a single modality of the control signal, which limits their application in the real digital human industry. This paper presents a Motion General-Purpose generaTor (MotionGPT) that can use multimodal control signals, e.g., text and single-frame poses, for generating consecutive human motions by treating multimodal signals as special input tokens in large language models (LLMs). Specifically, we first quantize multimodal control signals into discrete codes and then formulate them in a unified prompt instruction to ask the LLMs to generate the motion answer. Our MotionGPT demonstrates a unified human motion generation model with multimodal control signals by tuning a mere 0.4% of LLM parameters. To the best of our knowledge, MotionGPT is the first method to generate human motion by multimodal control signals, which we hope can shed light on this new direction. Visit our webpage at https://qiqiapink.github.io/MotionGPT/.
- Abstract(参考訳): 与えられた行動記述から現実的な人間の動きを生成することは、デジタル人間の要求が高まっているため、大きな進歩を経験してきた。
近年の研究では、テキストによる動作記述から直接動作を生成するという印象的な成果が得られているが、実際のデジタルヒューマン産業での応用を制限する制御信号の単一のモダリティしかサポートしていないことが多い。
本稿では,多言語モデル(LLM)における特殊入力トークンとしてマルチモーダル信号を扱うことで,多モーダル制御信号,例えばテキスト,単一フレームのポーズを連続的に生成できるMotionGPT(MotionGPT)を提案する。
具体的には、まずマルチモーダル制御信号を離散符号に量子化し、次にそれらを統一的なプロンプト命令で定式化し、LCMに動作応答を生成する。
我々のMotionGPTは、LLMパラメータのわずか0.4%をチューニングすることで、マルチモーダル制御信号を備えた統一された人間動作生成モデルを示す。
私たちの知る限りでは、MotionGPTはマルチモーダル制御信号によって人間の動きを生成する最初の方法です。
https://qiqiapink.github.io/MotionGPT/
関連論文リスト
- DirectorLLM for Human-Centric Video Generation [46.37441947526771]
ビデオ内の人間のポーズを整理するために,大規模言語モデル(LLM)を用いた新しいビデオ生成モデルである DirectorLLM を紹介する。
我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れています。
論文 参考訳(メタデータ) (2024-12-19T03:10:26Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion
Synthesis System [51.43113919042621]
本稿では,長期・多動作型人体動作合成のためのニューラルネットワークシステムを提案する。
このシステムは、単純なユーザ入力からスムーズな遷移を伴う有意義な動作を生成することができる。
また,マルチアクション動作合成タスクに特化した新しいデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-27T07:10:20Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。