Fugu-MT 論文翻訳(概要): MotionGPT: Human Motion as a Foreign Language

論文の概要: MotionGPT: Human Motion as a Foreign Language

arxiv url: http://arxiv.org/abs/2306.14795v2
Date: Thu, 20 Jul 2023 03:39:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 17:26:25.405274
Title: MotionGPT: Human Motion as a Foreign Language
Title（参考訳）: MotionGPT: 外国語としての人間の動き
Authors: Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen
Abstract要約: 人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
参考スコア（独自算出の注目度）: 47.21648303282788
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Though the advancement of pre-trained large language models unfolds, the exploration of building a unified model for language and other multi-modal data, such as motion, remains challenging and untouched so far. Fortunately, human motion displays a semantic coupling akin to human language, often perceived as a form of body language. By fusing language data with large-scale motion models, motion-language pre-training that can enhance the performance of motion-related tasks becomes feasible. Driven by this insight, we propose MotionGPT, a unified, versatile, and user-friendly motion-language model to handle multiple motion-relevant tasks. Specifically, we employ the discrete vector quantization for human motion and transfer 3D motion into motion tokens, similar to the generation process of word tokens. Building upon this "motion vocabulary", we perform language modeling on both motion and text in a unified manner, treating human motion as a specific language. Moreover, inspired by prompt learning, we pre-train MotionGPT with a mixture of motion-language data and fine-tune it on prompt-based question-and-answer tasks. Extensive experiments demonstrate that MotionGPT achieves state-of-the-art performances on multiple motion tasks including text-driven motion generation, motion captioning, motion prediction, and motion in-between.
Abstract（参考訳）: 事前学習された大規模言語モデルの進歩は展開するが、言語とモーションのような他のマルチモーダルデータのための統一モデルの構築は、これまでも挑戦的で未修正である。幸運なことに、人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。大規模動作モデルで言語データを融合することにより、動作関連タスクのパフォーマンスを向上させる動き言語事前学習が実現可能となる。この知見を活かし,複数の動作関連タスクを処理するための統合型,汎用性,ユーザフレンドリなモーション言語モデルであるmotiongptを提案する。具体的には,人間の動きに対する離散ベクトル量子化を用いて,単語トークンの生成過程と類似した3次元動きを動きトークンに転送する。この「動き語彙」に基づいて、動きとテキストの両方の言語モデリングを統一的に行い、人間の動きを特定の言語として扱う。さらに、素早い学習にインスパイアされたMotionGPTを、動き言語データの混合で事前訓練し、素早い質問・回答タスクで微調整する。広範囲な実験により、MotionGPTはテキスト駆動のモーション生成、モーションキャプション、モーション予測、動作中の動作を含む複数の動作タスクにおいて最先端のパフォーマンスを達成することが示された。

関連論文リスト

The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion [46.01825432018138]
本稿では,多モーダル言語モデルを用いて,言語と非言語を統一する新しいフレームワークを提案する。提案手法は,音声合成における最先端性能を実現する。我々は、現実世界の応用には、人間の動きの言語と非言語を統一することが不可欠であると信じている。
論文参考訳（メタデータ） (2024-12-13T19:33:48Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
Human Motion Instruction Tuning [30.71209562108675]
本稿では,人間の動作指導のためのフレームワークであるLLaMoについて述べる。 LLaMoは、命令チューニングのためのネイティブフォームで動作を保持します。ビデオデータとモーションデータをテキスト入力と共に処理することで、LLaMoは柔軟な人間中心の分析を可能にする。
論文参考訳（メタデータ） (2024-11-25T14:38:43Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文参考訳（メタデータ） (2024-10-17T17:31:24Z)
MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文参考訳（メタデータ） (2024-05-30T17:59:50Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
MotionChain: Conversational Motion Controllers via Multimodal Prompts [25.181069337771127]
我々は,マルチモーダルプロンプトによる連続的,長期的人間の動作を生成する対話型ヒューマンモーションコントローラであるMotionChainを紹介する。大規模言語、視覚言語、視覚運動データを活用することで、MotionChainは、マルチターン会話で各命令を理解し、それに続く人間の動きを生成する。
論文参考訳（メタデータ） (2024-04-02T07:09:29Z)
MotionScript: Natural Language Descriptions for Expressive 3D Human Motions [8.050271017133076]
人間の3次元動作の詳細な自然言語記述を生成するための新しいフレームワークであるMotionScriptを紹介した。 MotionScriptは、人間の動きの完全な複雑さを捉える、きめ細かい構造化された記述を提供する。 MotionScriptは、テキスト・トゥ・モーションモデルのための記述ツールとトレーニングリソースの両方として機能する。
論文参考訳（メタデータ） (2023-12-19T22:33:17Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)
Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文参考訳（メタデータ） (2022-08-11T02:57:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。