論文の概要: Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs
- arxiv url: http://arxiv.org/abs/2405.17013v3
- Date: Sun, 06 Oct 2024 13:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:03.979876
- Title: Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs
- Title(参考訳): モーションエージェント:LLMを用いたヒューマンモーション生成のための会話フレームワーク
- Authors: Qi Wu, Yubo Zhao, Yifan Wang, Xinhang Liu, Yu-Wing Tai, Chi-Keung Tang,
- Abstract要約: Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
- 参考スコア(独自算出の注目度): 67.59291068131438
- License:
- Abstract: While previous approaches to 3D human motion generation have achieved notable success, they often rely on extensive training and are limited to specific tasks. To address these challenges, we introduce Motion-Agent, an efficient conversational framework designed for general human motion generation, editing, and understanding. Motion-Agent employs an open-source pre-trained language model to develop a generative agent, MotionLLM, that bridges the gap between motion and text. This is accomplished by encoding and quantizing motions into discrete tokens that align with the language model's vocabulary. With only 1--3\% of the model's parameters fine-tuned using adapters, MotionLLM delivers performance on par with diffusion models and other transformer-based methods trained from scratch. By integrating MotionLLM with GPT-4 without additional training, Motion-Agent is able to generate highly complex motion sequences through multi-turn conversations, a capability that previous models have struggled to achieve. Motion-Agent supports a wide range of motion-language tasks, offering versatile capabilities for generating and customizing human motion through interactive conversational exchanges. Project page: https://knoxzhao.github.io/Motion-Agent
- Abstract(参考訳): 従来の3Dモーションジェネレーションへのアプローチは目覚ましい成功を収めてきたが、広範囲のトレーニングに頼り、特定のタスクに限られることが多い。
これらの課題に対処するために、一般的な人間の動きの生成、編集、理解のために設計された効率的な対話型フレームワークであるMotion-Agentを紹介する。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
これは、動きを言語モデルの語彙に合わせて離散トークンにエンコードして量子化する。
アダプタを使って微調整されたモデルのパラメータの1~3倍しかなく、MotionLLMは拡散モデルやスクラッチからトレーニングされた他のトランスフォーマーベースのメソッドと同等のパフォーマンスを提供する。
MotionLLMとGPT-4を統合することで、Motion-Agentはマルチターン会話を通じて非常に複雑なモーションシーケンスを生成することができる。
Motion-Agentは幅広い動作言語タスクをサポートし、対話的な会話交換を通じて人間の動きを生成し、カスタマイズする汎用機能を提供する。
プロジェクトページ:https://knoxzhao.github.io/Motion-Agent
関連論文リスト
- MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [83.55301458112672]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。
機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。
拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文 参考訳(メタデータ) (2024-10-14T17:56:19Z) - MotionChain: Conversational Motion Controllers via Multimodal Prompts [25.181069337771127]
我々は,マルチモーダルプロンプトによる連続的,長期的人間の動作を生成する対話型ヒューマンモーションコントローラであるMotionChainを紹介する。
大規模言語、視覚言語、視覚運動データを活用することで、MotionChainは、マルチターン会話で各命令を理解し、それに続く人間の動きを生成する。
論文 参考訳(メタデータ) (2024-04-02T07:09:29Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。
大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。
我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文 参考訳(メタデータ) (2023-06-26T15:53:02Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。