Fugu-MT 論文翻訳(概要): OmniMotionGPT: Animal Motion Generation with Limited Data

論文の概要: OmniMotionGPT: Animal Motion Generation with Limited Data

arxiv url: http://arxiv.org/abs/2311.18303v1
Date: Thu, 30 Nov 2023 07:14:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 17:43:56.327857
Title: OmniMotionGPT: Animal Motion Generation with Limited Data
Title（参考訳）: OmniMotionGPT: 限られたデータによる動物運動生成
Authors: Zhangsihao Yang, Mingyuan Zhou, Mengyi Shan, Bingbing Wen, Ziwei Xuan, Mitch Hill, Junjie Bai, Guo-Jun Qi, Yalin Wang
Abstract要約: 最初のテキストアニマルモーションデータセットであるAnimalML3Dを紹介した。我々は,動物データに基づくヒトの動き生成ベースラインのトレーニング結果よりも定量的かつ質的に,高い多様性と忠実さで動物の動きを生成することができる。
参考スコア（独自算出の注目度）: 70.35662376853163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Our paper aims to generate diverse and realistic animal motion sequences from textual descriptions, without a large-scale animal text-motion dataset. While the task of text-driven human motion synthesis is already extensively studied and benchmarked, it remains challenging to transfer this success to other skeleton structures with limited data. In this work, we design a model architecture that imitates Generative Pretraining Transformer (GPT), utilizing prior knowledge learned from human data to the animal domain. We jointly train motion autoencoders for both animal and human motions and at the same time optimize through the similarity scores among human motion encoding, animal motion encoding, and text CLIP embedding. Presenting the first solution to this problem, we are able to generate animal motions with high diversity and fidelity, quantitatively and qualitatively outperforming the results of training human motion generation baselines on animal data. Additionally, we introduce AnimalML3D, the first text-animal motion dataset with 1240 animation sequences spanning 36 different animal identities. We hope this dataset would mediate the data scarcity problem in text-driven animal motion generation, providing a new playground for the research community.
Abstract（参考訳）: 本稿は,大規模動物行動データセットを必要とせず,テキスト記述から多様かつ現実的な動画像を生成することを目的としている。テキスト駆動のヒトの運動合成のタスクはすでに広く研究され、ベンチマークされているが、この成功を限られたデータで他の骨格構造に移すことは依然として困難である。本研究では,人間のデータから動物領域に学習した事前知識を利用して,GPT(Generative Pretraining Transformer)を模倣するモデルアーキテクチャを設計する。動物と人間の両方の動きのオートエンコーダを共同で訓練すると同時に、人間の動きエンコーディング、動物の動きエンコーディング、テキストクリップ埋め込みの類似度スコアを最適化する。この問題に対する第1の解決策として,動物データに基づくヒトの運動生成ベースラインのトレーニング結果よりも定量的かつ質的に,多様性と忠実度の高い動物運動を生成することができる。さらに,36種類の動物集団にまたがる1240のアニメーションシーケンスを持つ最初のテキストアニマルモーションデータセットであるAnimalML3Dを紹介する。このデータセットが、テキスト駆動の動物運動生成におけるデータ不足の問題を仲介し、研究コミュニティに新しい遊び場を提供することを願っている。

関連論文リスト

Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文参考訳（メタデータ） (2024-12-17T17:34:52Z)
T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data [6.6240820702899565]
既存の方法は、表情や手の動きを除いて、身体の動きデータのみを生成する。このようなデータセットを作成しようとする最近の試みは、異なる身体部位間での運動の不整合をもたらす。部分注釈付きデータから表現力のあるテキスト・ツー・モーション生成を学習する2段階の方法であるT2M-Xを提案する。
論文参考訳（メタデータ） (2024-09-20T06:20:00Z)
MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文参考訳（メタデータ） (2024-08-01T16:58:50Z)
Contact-aware Human Motion Generation from Textual Descriptions [57.871692507044344]
本稿では,テキストから3次元対話型人間の動作を生成する問題に対処する。私たちは「Contact-Aware Texts」を表すRICH-CATという新しいデータセットを作成します。そこで本研究では,テキストによる対話型人間の動作合成のためのCATMOという新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-23T04:08:39Z)
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation [47.272177594990104]
テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
論文参考訳（メタデータ） (2023-05-16T17:58:43Z)
TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。 TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T14:53:06Z)
Render In-between: Motion Guided Video Synthesis for Action Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文参考訳（メタデータ） (2021-11-01T15:32:51Z)
SyDog: A Synthetic Dog Dataset for Improved 2D Pose Estimation [3.411873646414169]
SyDogは、地面に真実のポーズとバウンディングボックス座標を含む犬の合成データセットである。我々は、SyDogで訓練されたポーズ推定モデルが、実データで純粋に訓練されたモデルよりも優れたパフォーマンスを実現することを実証した。
論文参考訳（メタデータ） (2021-07-31T14:34:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。