Fugu-MT 論文翻訳(概要): Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

論文の概要: Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

arxiv url: http://arxiv.org/abs/2305.09662v1
Date: Tue, 16 May 2023 17:58:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-17 13:33:50.624986
Title: Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation
Title（参考訳）: make-an-animation:大規模テキスト条件付き3次元モーション生成
Authors: Samaneh Azadi, Akbar Shah, Thomas Hayes, Devi Parikh, Sonal Gupta
Abstract要約: テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
参考スコア（独自算出の注目度）: 47.272177594990104
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-guided human motion generation has drawn significant interest because of its impactful applications spanning animation and robotics. Recently, application of diffusion models for motion generation has enabled improvements in the quality of generated motions. However, existing approaches are limited by their reliance on relatively small-scale motion capture data, leading to poor performance on more diverse, in-the-wild prompts. In this paper, we introduce Make-An-Animation, a text-conditioned human motion generation model which learns more diverse poses and prompts from large-scale image-text datasets, enabling significant improvement in performance over prior works. Make-An-Animation is trained in two stages. First, we train on a curated large-scale dataset of (text, static pseudo-pose) pairs extracted from image-text datasets. Second, we fine-tune on motion capture data, adding additional layers to model the temporal dimension. Unlike prior diffusion models for motion generation, Make-An-Animation uses a U-Net architecture similar to recent text-to-video generation models. Human evaluation of motion realism and alignment with input text shows that our model reaches state-of-the-art performance on text-to-motion generation.
Abstract（参考訳）: テキスト誘導された人間のモーション生成は、アニメーションとロボット工学にまたがる影響のある応用のために、大きな関心を集めている。近年, 拡散モデルの運動生成への応用により, 生成運動の品質が向上している。しかし、既存のアプローチは比較的小規模なモーションキャプチャーデータに依存しているため、より多種多様なインザワイルドプロンプトの性能は低下する。本稿では,より多様なポーズを学習し,大規模な画像テキストデータセットからプロンプトを誘導するテキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。 Make-An-Animationは2つのステージで訓練される。まず、画像テキストデータセットから抽出した(テキスト、静的な擬似目的)ペアの大規模データセットをトレーニングする。第二に、モーションキャプチャーデータを微調整し、時間次元をモデル化するためのレイヤーを追加します。モーション生成のための従来の拡散モデルとは異なり、Make-An-Animationは最近のテキスト・ビデオ生成モデルに似たU-Netアーキテクチャを使用する。人間の動作リアリズムの評価と入力テキストとのアライメントは,本モデルがテキスト・トゥ・モーション生成における最先端の性能に達することを示す。

関連論文リスト

Strong and Controllable 3D Motion Generation [0.0]
本研究では,従来のテキスト・ツー・モーション生成法と比較して,人間の動作の高精度な関節レベル制御を可能にするモーションコントロールネットを提案する。これらのコントリビューションは、テキスト・トゥ・モーション生成の大幅な進歩を示し、現実世界のアプリケーションに近づいた。
論文参考訳（メタデータ） (2025-01-30T20:06:30Z)
PackDiT: Joint Human Motion and Text Generation via Mutual Prompting [22.53146582495341]
PackDiTは、様々なタスクを同時に実行できる最初の拡散ベースの生成モデルである。我々はHumanML3Dデータセット上でPackDiTをトレーニングし、FIDスコア0.106で最先端のテキスト・トゥ・モーションのパフォーマンスを達成する。さらに本実験は, 拡散モデルが, 自動回帰モデルに匹敵する性能を達成し, 動画像生成に有効であることを示す。
論文参考訳（メタデータ） (2025-01-27T22:51:45Z)
Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文参考訳（メタデータ） (2024-12-17T17:34:52Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models [70.78051873517285]
我々は、最初の100万レベルのモーション生成ベンチマークであるMotionBaseを紹介する。この膨大なデータセットを活用することで、我々の大きな動きモデルは幅広い動きに対して強いパフォーマンスを示す。動作情報を保存し,コードブックの容量を拡大する,モーショントークン化のための新しい2次元ルックアップフリーアプローチを提案する。
論文参考訳（メタデータ） (2024-10-04T10:48:54Z)
T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data [6.6240820702899565]
既存の方法は、表情や手の動きを除いて、身体の動きデータのみを生成する。このようなデータセットを作成しようとする最近の試みは、異なる身体部位間での運動の不整合をもたらす。部分注釈付きデータから表現力のあるテキスト・ツー・モーション生成を学習する2段階の方法であるT2M-Xを提案する。
論文参考訳（メタデータ） (2024-09-20T06:20:00Z)
MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文参考訳（メタデータ） (2024-08-01T16:58:50Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。 FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文参考訳（メタデータ） (2024-03-20T11:38:30Z)
OmniMotionGPT: Animal Motion Generation with Limited Data [70.35662376853163]
最初のテキストアニマルモーションデータセットであるAnimalML3Dを紹介した。我々は,動物データに基づくヒトの動き生成ベースラインのトレーニング結果よりも定量的かつ質的に,高い多様性と忠実さで動物の動きを生成することができる。
論文参考訳（メタデータ） (2023-11-30T07:14:00Z)
FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。 FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文参考訳（メタデータ） (2022-09-01T10:34:57Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)
TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。 TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T14:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。