Fugu-MT 論文翻訳(概要): Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs

論文の概要: Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs

arxiv url: http://arxiv.org/abs/2405.17013v3
Date: Sun, 06 Oct 2024 13:46:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 00:58:19.541421
Title: Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs
Title（参考訳）: モーションエージェント:LLMを用いたヒューマンモーション生成のための会話フレームワーク
Authors: Qi Wu, Yubo Zhao, Yifan Wang, Xinhang Liu, Yu-Wing Tai, Chi-Keung Tang,
Abstract要約: Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
参考スコア（独自算出の注目度）: 67.59291068131438
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While previous approaches to 3D human motion generation have achieved notable success, they often rely on extensive training and are limited to specific tasks. To address these challenges, we introduce Motion-Agent, an efficient conversational framework designed for general human motion generation, editing, and understanding. Motion-Agent employs an open-source pre-trained language model to develop a generative agent, MotionLLM, that bridges the gap between motion and text. This is accomplished by encoding and quantizing motions into discrete tokens that align with the language model's vocabulary. With only 1--3\% of the model's parameters fine-tuned using adapters, MotionLLM delivers performance on par with diffusion models and other transformer-based methods trained from scratch. By integrating MotionLLM with GPT-4 without additional training, Motion-Agent is able to generate highly complex motion sequences through multi-turn conversations, a capability that previous models have struggled to achieve. Motion-Agent supports a wide range of motion-language tasks, offering versatile capabilities for generating and customizing human motion through interactive conversational exchanges. Project page: https://knoxzhao.github.io/Motion-Agent
Abstract（参考訳）: 従来の3Dモーションジェネレーションへのアプローチは目覚ましい成功を収めてきたが、広範囲のトレーニングに頼り、特定のタスクに限られることが多い。これらの課題に対処するために、一般的な人間の動きの生成、編集、理解のために設計された効率的な対話型フレームワークであるMotion-Agentを紹介する。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。これは、動きを言語モデルの語彙に合わせて離散トークンにエンコードして量子化する。アダプタを使って微調整されたモデルのパラメータの1～3倍しかなく、MotionLLMは拡散モデルやスクラッチからトレーニングされた他のトランスフォーマーベースのメソッドと同等のパフォーマンスを提供する。 MotionLLMとGPT-4を統合することで、Motion-Agentはマルチターン会話を通じて非常に複雑なモーションシーケンスを生成することができる。 Motion-Agentは幅広い動作言語タスクをサポートし、対話的な会話交換を通じて人間の動きを生成し、カスタマイズする汎用機能を提供する。プロジェクトページ:https://knoxzhao.github.io/Motion-Agent

関連論文リスト

GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
VersatileMotion: A Unified Framework for Motion Synthesis and Comprehension [26.172040706657235]
本稿では,VQ-VAEとフローマッチングを組み合わせた新しいモーショントークンと,自動回帰変換器のバックボーンを組み合わせた統合モーションLLMであるVersatileMotionを紹介する。 VersatileMotionは、単一のフレームワークで単一エージェントとマルチエージェントの動作を処理する最初の方法であり、7つのタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-26T11:28:01Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [83.55301458112672]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文参考訳（メタデータ） (2024-10-14T17:56:19Z)
MotionChain: Conversational Motion Controllers via Multimodal Prompts [25.181069337771127]
我々は,マルチモーダルプロンプトによる連続的,長期的人間の動作を生成する対話型ヒューマンモーションコントローラであるMotionChainを紹介する。大規模言語、視覚言語、視覚運動データを活用することで、MotionChainは、マルチターン会話で各命令を理解し、それに続く人間の動きを生成する。
論文参考訳（メタデータ） (2024-04-02T07:09:29Z)
Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2024-03-26T18:41:07Z)
MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文参考訳（メタデータ） (2023-06-26T15:53:02Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)
TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。 TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T14:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。