論文の概要: FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing
- arxiv url: http://arxiv.org/abs/2312.15004v1
- Date: Fri, 22 Dec 2023 16:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:08:54.542204
- Title: FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing
- Title(参考訳): FineMoGen: 微粒な時空間運動生成と編集
- Authors: Mingyuan Zhang, Huirong Li, Zhongang Cai, Jiawei Ren, Lei Yang, Ziwei
Liu
- Abstract要約: FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
- 参考スコア(独自算出の注目度): 56.29102849106382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven motion generation has achieved substantial progress with the
emergence of diffusion models. However, existing methods still struggle to
generate complex motion sequences that correspond to fine-grained descriptions,
depicting detailed and accurate spatio-temporal actions. This lack of fine
controllability limits the usage of motion generation to a larger audience. To
tackle these challenges, we present FineMoGen, a diffusion-based motion
generation and editing framework that can synthesize fine-grained motions, with
spatial-temporal composition to the user instructions. Specifically, FineMoGen
builds upon diffusion model with a novel transformer architecture dubbed
Spatio-Temporal Mixture Attention (SAMI). SAMI optimizes the generation of the
global attention template from two perspectives: 1) explicitly modeling the
constraints of spatio-temporal composition; and 2) utilizing sparsely-activated
mixture-of-experts to adaptively extract fine-grained features. To facilitate a
large-scale study on this new fine-grained motion generation task, we
contribute the HuMMan-MoGen dataset, which consists of 2,968 videos and 102,336
fine-grained spatio-temporal descriptions. Extensive experiments validate that
FineMoGen exhibits superior motion generation quality over state-of-the-art
methods. Notably, FineMoGen further enables zero-shot motion editing
capabilities with the aid of modern large language models (LLM), which
faithfully manipulates motion sequences with fine-grained instructions. Project
Page: https://mingyuan-zhang.github.io/projects/FineMoGen.html
- Abstract(参考訳): テキスト駆動モーション生成は拡散モデルの出現によって大きく進歩した。
しかし、既存の手法では、細かな記述に対応する複雑な動き列を生成するのに苦労しており、詳細かつ正確な時空間的動作を描写している。
この制御性の欠如は、モーション生成の使用をより多くのオーディエンスに制限する。
このような課題に対処するために,ユーザの指示に空間的時間的組成を組み込んだ微細な動きを合成できる拡散型モーション生成・編集フレームワークであるFineMoGenを提案する。
具体的には、FineMoGenはSAMI(Spatio-Temporal Mixture Attention)と呼ばれる新しいトランスフォーマーアーキテクチャで拡散モデルを構築している。
SAMIは2つの視点からグローバルアテンションテンプレートの生成を最適化する。
1)時空間構成の制約を明示的にモデル化し,
2) 微粒化を適応的に抽出するために, スパース活性混合物を利用する。
本研究は,2,968本の動画と102,336本の微細な時空間記述からなるHumman-MoGenデータセットを寄贈する。
大規模な実験により、FineMoGenは最先端の手法よりも優れたモーション生成品質を示すことが示された。
特に、FinMoGenは、最新の大言語モデル(LLM)の助けを借りて、よりきめ細かな命令で動きシーケンスを忠実に操作することで、ゼロショットモーション編集を可能にする。
プロジェクトページ: https://mingyuan-zhang.github.io/projects/finemogen.html
関連論文リスト
- Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Motion Mamba: Efficient and Long Sequence Motion Generation [26.777455596989526]
状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。
我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-12T10:25:29Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Example-based Motion Synthesis via Generative Motion Matching [44.20519633463265]
我々は、単一または少数のサンプルシーケンスから可能な限り多くの多様な動きを「マイニング」する生成モデルGenMMを提案する。
GenMMは、トレーニングのない性質と、よく知られたMotion Matching法の優れた品質を継承する。
論文 参考訳(メタデータ) (2023-06-01T06:19:33Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。