論文の概要: MotionGPT: Finetuned LLMs are General-Purpose Motion Generators
- arxiv url: http://arxiv.org/abs/2306.10900v1
- Date: Mon, 19 Jun 2023 12:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:46:00.891916
- Title: MotionGPT: Finetuned LLMs are General-Purpose Motion Generators
- Title(参考訳): MotionGPT:精巧なLLMは汎用モーションジェネレータ
- Authors: Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei
Bai, Qi Chu, Nenghai Yu, Wanli Ouyang
- Abstract要約: 本稿では,マルチモーダル制御信号を利用するMotionGPT(Motion General-Purpose generaTor)を提案する。
具体的には、まずマルチモーダル制御信号を離散コードに量子化し、それらを統一的な命令で定式化する。
我々のMotionGPTは、LLMパラメータのわずか0.4%をチューニングすることで、マルチモーダル制御信号を用いた統一された人の動き生成モデルを示す。
- 参考スコア(独自算出の注目度): 127.3029176800555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic human motion from given action descriptions has
experienced significant advancements because of the emerging requirement of
digital humans. While recent works have achieved impressive results in
generating motion directly from textual action descriptions, they often support
only a single modality of the control signal, which limits their application in
the real digital human industry. This paper presents a Motion General-Purpose
generaTor (MotionGPT) that can use multimodal control signals, e.g., text and
single-frame poses, for generating consecutive human motions by treating
multimodal signals as special input tokens in large language models (LLMs).
Specifically, we first quantize multimodal control signals into discrete codes
and then formulate them in a unified prompt instruction to ask the LLMs to
generate the motion answer. Our MotionGPT demonstrates a unified human motion
generation model with multimodal control signals by tuning a mere 0.4% of LLM
parameters. To the best of our knowledge, MotionGPT is the first method to
generate human motion by multimodal control signals, which we hope can shed
light on this new direction. Codes shall be released upon acceptance.
- Abstract(参考訳): 与えられた行動記述からリアルな人間の動きを生成することは、デジタル人間の新たな要求のために大きな進歩を経験した。
最近の研究は、テキストによる動作記述から直接運動を生成するという印象的な成果を上げているが、それらはしばしば制御信号の単一のモダリティのみをサポートし、実際のデジタル人間産業での応用を制限する。
本稿では,大規模言語モデル(LLM)における特殊入力トークンとしてマルチモーダル信号を扱うことで,テキストやシングルフレームポーズなどのマルチモーダル制御信号を連続的な人間の動作を生成するためのMotionGPT(MotionGPT)を提案する。
具体的には、まずマルチモーダル制御信号を離散符号に量子化し、それらを統一的なプロンプト命令で定式化し、LSMに動作応答を生成する。
motiongpt は llm パラメータのわずか 0.4% をチューニングし,マルチモーダル制御信号を用いた統一的な動作生成モデルを示す。
私たちの知る限りでは、MotionGPTはマルチモーダル制御信号によって人間の動きを生成する最初の方法です。
規定は受理後に解除する。
関連論文リスト
- MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models [19.09048969615117]
MLLMをベースとしたユーザ制御信号として自然言語命令を用いたオープンなヒューマンモーション合成について検討する。
本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。
論文 参考訳(メタデータ) (2024-06-15T21:10:37Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion
Synthesis System [51.43113919042621]
本稿では,長期・多動作型人体動作合成のためのニューラルネットワークシステムを提案する。
このシステムは、単純なユーザ入力からスムーズな遷移を伴う有意義な動作を生成することができる。
また,マルチアクション動作合成タスクに特化した新しいデータセットを提案する。
論文 参考訳(メタデータ) (2022-09-27T07:10:20Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。