論文の概要: MotionGPT: Finetuned LLMs are General-Purpose Motion Generators
- arxiv url: http://arxiv.org/abs/2306.10900v1
- Date: Mon, 19 Jun 2023 12:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:46:00.891916
- Title: MotionGPT: Finetuned LLMs are General-Purpose Motion Generators
- Title(参考訳): MotionGPT:精巧なLLMは汎用モーションジェネレータ
- Authors: Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei
Bai, Qi Chu, Nenghai Yu, Wanli Ouyang
- Abstract要約: 本稿では,マルチモーダル制御信号を利用するMotionGPT(Motion General-Purpose generaTor)を提案する。
具体的には、まずマルチモーダル制御信号を離散コードに量子化し、それらを統一的な命令で定式化する。
我々のMotionGPTは、LLMパラメータのわずか0.4%をチューニングすることで、マルチモーダル制御信号を用いた統一された人の動き生成モデルを示す。
- 参考スコア(独自算出の注目度): 127.3029176800555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic human motion from given action descriptions has
experienced significant advancements because of the emerging requirement of
digital humans. While recent works have achieved impressive results in
generating motion directly from textual action descriptions, they often support
only a single modality of the control signal, which limits their application in
the real digital human industry. This paper presents a Motion General-Purpose
generaTor (MotionGPT) that can use multimodal control signals, e.g., text and
single-frame poses, for generating consecutive human motions by treating
multimodal signals as special input tokens in large language models (LLMs).
Specifically, we first quantize multimodal control signals into discrete codes
and then formulate them in a unified prompt instruction to ask the LLMs to
generate the motion answer. Our MotionGPT demonstrates a unified human motion
generation model with multimodal control signals by tuning a mere 0.4% of LLM
parameters. To the best of our knowledge, MotionGPT is the first method to
generate human motion by multimodal control signals, which we hope can shed
light on this new direction. Codes shall be released upon acceptance.
- Abstract(参考訳): 与えられた行動記述からリアルな人間の動きを生成することは、デジタル人間の新たな要求のために大きな進歩を経験した。
最近の研究は、テキストによる動作記述から直接運動を生成するという印象的な成果を上げているが、それらはしばしば制御信号の単一のモダリティのみをサポートし、実際のデジタル人間産業での応用を制限する。
本稿では,大規模言語モデル(LLM)における特殊入力トークンとしてマルチモーダル信号を扱うことで,テキストやシングルフレームポーズなどのマルチモーダル制御信号を連続的な人間の動作を生成するためのMotionGPT(MotionGPT)を提案する。
具体的には、まずマルチモーダル制御信号を離散符号に量子化し、それらを統一的なプロンプト命令で定式化し、LSMに動作応答を生成する。
motiongpt は llm パラメータのわずか 0.4% をチューニングし,マルチモーダル制御信号を用いた統一的な動作生成モデルを示す。
私たちの知る限りでは、MotionGPTはマルチモーダル制御信号によって人間の動きを生成する最初の方法です。
規定は受理後に解除する。
関連論文リスト
- Universal Humanoid Motion Representations for Physics-Based Control [74.53927919796139]
本稿では、ヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現について述べる。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Controllable Motion Diffusion Model [59.52889433954535]
制御可能な運動拡散モデル(COMODO)の枠組みを提案する。
我々のフレームワークは自動回帰運動拡散モデル(A-MDM)から始まり、ステップごとに動きのシーケンスを生成する。
そこで本研究では,A-MDMモデル上での強化学習に基づく制御手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion
Synthesis System [51.43113919042621]
本稿では,長期・多動作型人体動作合成のためのニューラルネットワークシステムを提案する。
このシステムは、単純なユーザ入力からスムーズな遷移を伴う有意義な動作を生成することができる。
また,マルチアクション動作合成タスクに特化した新しいデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-27T07:10:20Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - GANimator: Neural Motion Synthesis from a Single Sequence [38.361579401046875]
本稿では,1つの短い動き列から新しい動きを合成することを学ぶ生成モデルであるGANimatorを提案する。
GANimatorはオリジナルの動きのコア要素に類似した動きを生成し、同時に新規で多様な動きを合成する。
クラウドシミュレーション,キーフレーム編集,スタイル転送,対話型制御など,さまざまな応用例を示し,それぞれが単一の入力シーケンスから学習する。
論文 参考訳(メタデータ) (2022-05-05T13:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。