Fugu-MT 論文翻訳(概要): FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing

論文の概要: FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing

arxiv url: http://arxiv.org/abs/2312.15004v1
Date: Fri, 22 Dec 2023 16:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 20:08:54.542204
Title: FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing
Title（参考訳）: FineMoGen: 微粒な時空間運動生成と編集
Authors: Mingyuan Zhang, Huirong Li, Zhongang Cai, Jiawei Ren, Lei Yang, Ziwei Liu
Abstract要約: FineMoGenは拡散ベースのモーション生成および編集フレームワークである。微細な動きを合成し、ユーザの指示に時空間の合成を施す。 FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
参考スコア（独自算出の注目度）: 56.29102849106382
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-driven motion generation has achieved substantial progress with the emergence of diffusion models. However, existing methods still struggle to generate complex motion sequences that correspond to fine-grained descriptions, depicting detailed and accurate spatio-temporal actions. This lack of fine controllability limits the usage of motion generation to a larger audience. To tackle these challenges, we present FineMoGen, a diffusion-based motion generation and editing framework that can synthesize fine-grained motions, with spatial-temporal composition to the user instructions. Specifically, FineMoGen builds upon diffusion model with a novel transformer architecture dubbed Spatio-Temporal Mixture Attention (SAMI). SAMI optimizes the generation of the global attention template from two perspectives: 1) explicitly modeling the constraints of spatio-temporal composition; and 2) utilizing sparsely-activated mixture-of-experts to adaptively extract fine-grained features. To facilitate a large-scale study on this new fine-grained motion generation task, we contribute the HuMMan-MoGen dataset, which consists of 2,968 videos and 102,336 fine-grained spatio-temporal descriptions. Extensive experiments validate that FineMoGen exhibits superior motion generation quality over state-of-the-art methods. Notably, FineMoGen further enables zero-shot motion editing capabilities with the aid of modern large language models (LLM), which faithfully manipulates motion sequences with fine-grained instructions. Project Page: https://mingyuan-zhang.github.io/projects/FineMoGen.html
Abstract（参考訳）: テキスト駆動モーション生成は拡散モデルの出現によって大きく進歩した。しかし、既存の手法では、細かな記述に対応する複雑な動き列を生成するのに苦労しており、詳細かつ正確な時空間的動作を描写している。この制御性の欠如は、モーション生成の使用をより多くのオーディエンスに制限する。このような課題に対処するために,ユーザの指示に空間的時間的組成を組み込んだ微細な動きを合成できる拡散型モーション生成・編集フレームワークであるFineMoGenを提案する。具体的には、FineMoGenはSAMI(Spatio-Temporal Mixture Attention)と呼ばれる新しいトランスフォーマーアーキテクチャで拡散モデルを構築している。 SAMIは2つの視点からグローバルアテンションテンプレートの生成を最適化する。 1)時空間構成の制約を明示的にモデル化し, 2) 微粒化を適応的に抽出するために, スパース活性混合物を利用する。本研究は,2,968本の動画と102,336本の微細な時空間記述からなるHumman-MoGenデータセットを寄贈する。大規模な実験により、FineMoGenは最先端の手法よりも優れたモーション生成品質を示すことが示された。特に、FinMoGenは、最新の大言語モデル(LLM)の助けを借りて、よりきめ細かな命令で動きシーケンスを忠実に操作することで、ゼロショットモーション編集を可能にする。プロジェクトページ: https://mingyuan-zhang.github.io/projects/finemogen.html

関連論文リスト

Mojito: Motion Trajectory and Intensity Control for Video Generation [79.85687620761186]
本稿では,テキスト・ビデオ生成のための運動軌跡と強度制御の両方を組み込んだ拡散モデルであるMojitoを紹介する。実験は, 高精度な軌道制御と強度制御を高い計算効率で実現する上で, モジトの有効性を実証する。
論文参考訳（メタデータ） (2024-12-12T05:26:43Z)
KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。単一の粗い記述は、速度の変化、手足の位置決め、運動力学などの詳細を捉えるのに失敗する。階層的な記述可能な動作表現に基づいて構築された統合フレームワークである textbfKinMo を紹介する。
論文参考訳（メタデータ） (2024-11-23T06:50:11Z)
Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文参考訳（メタデータ） (2024-07-11T12:33:56Z)
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文参考訳（メタデータ） (2024-05-30T17:57:30Z)
CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。 CoMoは、動きを離散的で意味のあるポーズコードに分解する。自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文参考訳（メタデータ） (2024-03-20T18:11:10Z)
Motion Mamba: Efficient and Long Sequence Motion Generation [26.777455596989526]
状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
論文参考訳（メタデータ） (2024-03-12T10:25:29Z)
MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2024-01-20T04:58:06Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文参考訳（メタデータ） (2023-12-08T16:31:04Z)
Example-based Motion Synthesis via Generative Motion Matching [44.20519633463265]
我々は、単一または少数のサンプルシーケンスから可能な限り多くの多様な動きを「マイニング」する生成モデルGenMMを提案する。 GenMMは、トレーニングのない性質と、よく知られたMotion Matching法の優れた品質を継承する。
論文参考訳（メタデータ） (2023-06-01T06:19:33Z)
LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。 LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。