Fugu-MT 論文翻訳(概要): MotionGPT: Finetuned LLMs are General-Purpose Motion Generators

論文の概要: MotionGPT: Finetuned LLMs are General-Purpose Motion Generators

arxiv url: http://arxiv.org/abs/2306.10900v1
Date: Mon, 19 Jun 2023 12:58:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 17:46:00.891916
Title: MotionGPT: Finetuned LLMs are General-Purpose Motion Generators
Title（参考訳）: MotionGPT:精巧なLLMは汎用モーションジェネレータ
Authors: Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, Wanli Ouyang
Abstract要約: 本稿では,マルチモーダル制御信号を利用するMotionGPT(Motion General-Purpose generaTor)を提案する。具体的には、まずマルチモーダル制御信号を離散コードに量子化し、それらを統一的な命令で定式化する。我々のMotionGPTは、LLMパラメータのわずか0.4%をチューニングすることで、マルチモーダル制御信号を用いた統一された人の動き生成モデルを示す。
参考スコア（独自算出の注目度）: 127.3029176800555
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating realistic human motion from given action descriptions has experienced significant advancements because of the emerging requirement of digital humans. While recent works have achieved impressive results in generating motion directly from textual action descriptions, they often support only a single modality of the control signal, which limits their application in the real digital human industry. This paper presents a Motion General-Purpose generaTor (MotionGPT) that can use multimodal control signals, e.g., text and single-frame poses, for generating consecutive human motions by treating multimodal signals as special input tokens in large language models (LLMs). Specifically, we first quantize multimodal control signals into discrete codes and then formulate them in a unified prompt instruction to ask the LLMs to generate the motion answer. Our MotionGPT demonstrates a unified human motion generation model with multimodal control signals by tuning a mere 0.4% of LLM parameters. To the best of our knowledge, MotionGPT is the first method to generate human motion by multimodal control signals, which we hope can shed light on this new direction. Codes shall be released upon acceptance.
Abstract（参考訳）: 与えられた行動記述からリアルな人間の動きを生成することは、デジタル人間の新たな要求のために大きな進歩を経験した。最近の研究は、テキストによる動作記述から直接運動を生成するという印象的な成果を上げているが、それらはしばしば制御信号の単一のモダリティのみをサポートし、実際のデジタル人間産業での応用を制限する。本稿では,大規模言語モデル(LLM)における特殊入力トークンとしてマルチモーダル信号を扱うことで,テキストやシングルフレームポーズなどのマルチモーダル制御信号を連続的な人間の動作を生成するためのMotionGPT(MotionGPT)を提案する。具体的には、まずマルチモーダル制御信号を離散符号に量子化し、それらを統一的なプロンプト命令で定式化し、LSMに動作応答を生成する。 motiongpt は llm パラメータのわずか 0.4% をチューニングし,マルチモーダル制御信号を用いた統一的な動作生成モデルを示す。私たちの知る限りでは、MotionGPTはマルチモーダル制御信号によって人間の動きを生成する最初の方法です。規定は受理後に解除する。

関連論文リスト

TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文参考訳（メタデータ） (2025-04-11T00:41:25Z)
DirectorLLM for Human-Centric Video Generation [46.37441947526771]
ビデオ内の人間のポーズを整理するために,大規模言語モデル(LLM)を用いた新しいビデオ生成モデルである DirectorLLM を紹介する。我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れています。
論文参考訳（メタデータ） (2024-12-19T03:10:26Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文参考訳（メタデータ） (2024-10-17T17:31:24Z)
Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-04T10:48:54Z)
FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models [19.09048969615117]
MLLMをベースとしたユーザ制御信号として自然言語命令を用いたオープンなヒューマンモーション合成について検討する。本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。
論文参考訳（メタデータ） (2024-06-15T21:10:37Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文参考訳（メタデータ） (2023-10-06T20:48:43Z)
NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion Synthesis System [51.43113919042621]
本稿では,長期・多動作型人体動作合成のためのニューラルネットワークシステムを提案する。このシステムは、単純なユーザ入力からスムーズな遷移を伴う有意義な動作を生成することができる。また,マルチアクション動作合成タスクに特化した新しいデータセットを提案する。
論文参考訳（メタデータ） (2022-09-27T07:10:20Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。