論文の概要: SnapMoGen: Human Motion Generation from Expressive Texts
- arxiv url: http://arxiv.org/abs/2507.09122v1
- Date: Sat, 12 Jul 2025 02:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.46291
- Title: SnapMoGen: Human Motion Generation from Expressive Texts
- Title(参考訳): SnapMoGen: 表現力のあるテキストから人の動きを生成する
- Authors: Chuan Guo, Inwoo Hwang, Jian Wang, Bing Zhou,
- Abstract要約: SnapMoGenは、高精度で表現力のあるテキストアノテーションと組み合わせた高品質なモーションキャプチャーデータを備えた、新しいテキストモーションデータセットである。
データセットは、合計44時間の20Kのモーションクリップと、記述毎の48ワードの平均122Kの詳細なテキスト記述で構成されている。
私たちのモデルであるMoMask++は、モーションをマルチスケールのトークンシーケンスに変換し、トークンのキャパシティをよりよく活用します。
- 参考スコア(独自算出の注目度): 19.139861365721433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion generation has experienced remarkable progress in recent years. However, current approaches remain limited to synthesizing motion from short or general text prompts, primarily due to dataset constraints. This limitation undermines fine-grained controllability and generalization to unseen prompts. In this paper, we introduce SnapMoGen, a new text-motion dataset featuring high-quality motion capture data paired with accurate, expressive textual annotations. The dataset comprises 20K motion clips totaling 44 hours, accompanied by 122K detailed textual descriptions averaging 48 words per description (vs. 12 words of HumanML3D). Importantly, these motion clips preserve original temporal continuity as they were in long sequences, facilitating research in long-term motion generation and blending. We also improve upon previous generative masked modeling approaches. Our model, MoMask++, transforms motion into multi-scale token sequences that better exploit the token capacity, and learns to generate all tokens using a single generative masked transformer. MoMask++ achieves state-of-the-art performance on both HumanML3D and SnapMoGen benchmarks. Additionally, we demonstrate the ability to process casual user prompts by employing an LLM to reformat inputs to align with the expressivity and narration style of SnapMoGen. Project webpage: https://snap-research.github.io/SnapMoGen/
- Abstract(参考訳): 近年,テキスト・トゥ・モーション・ジェネレーションは顕著な進歩を遂げている。
しかし、現在のアプローチは、主にデータセットの制約のため、短いテキストプロンプトや一般的なテキストプロンプトからの動作の合成に限られている。
この制限は、きめ細かい制御性と、目に見えないプロンプトへの一般化を損なう。
本稿では,高精度かつ表現力のあるテキストアノテーションと組み合わせた高品質なモーションキャプチャーデータを備えた新しいテキストモーションデータセットSnapMoGenを紹介する。
データセットは、合計44時間の20Kのモーションクリップと、平均48ワード(HumanML3Dの12ワード)の平均122Kの詳細なテキスト記述で構成されている。
重要なことは、これらのモーションクリップは、長い連続した時間的連続性を保ち、長期のモーションジェネレーションとブレンディングの研究を促進することである。
また,従来のマスマスキング手法を改良した。
我々のモデルであるMoMask++は、動きをマルチスケールのトークンシーケンスに変換し、トークン容量をよりよく活用し、単一の生成マスク変換器を用いて全てのトークンを生成することを学ぶ。
MoMask++はHumanML3DとSnapMoGenベンチマークの両方で最先端のパフォーマンスを実現している。
さらに,SnapMoGenの表現性やナレーションスタイルに合わせて入力をリフォームするためにLLMを用いることで,カジュアルなユーザプロンプトを処理する能力を示す。
プロジェクトWebページ: https://snap-research.github.io/SnapMoGen/
関連論文リスト
- FineMotion: A Dataset and Benchmark with both Spatial and Temporal Annotation for Fine-grained Motion Generation and Editing [36.42160163142448]
442,000以上の人間の動作スニペットを含むFineMotionデータセットを提案する。
データセットには、モーションシーケンス全体の人体部分の動きを記述した約95kの詳細な段落が含まれている。
論文 参考訳(メタデータ) (2025-07-26T07:54:29Z) - ACMo: Attribute Controllable Motion Generation [31.603231536312688]
この研究は属性制御可能なモーション生成アーキテクチャを導入している。
本研究では、属性拡散モデルを用いて、テキストとモーションを分離し、テキストとモーションのパフォーマンスを損なう。
提案手法では,動作プロンプトをスタイリズし,微粒化とユーザフレンドリな属性制御を実現する。
論文 参考訳(メタデータ) (2025-03-14T03:07:02Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation [71.08922726494842]
テキスト駆動動作合成におけるタイムライン制御の問題を紹介する。
ユーザーは単一のプロンプトの代わりに、重複する可能性のある時間間隔に整理された複数のプロンプトのマルチトラックタイムラインを指定することができる。
マルチトラックタイムラインから合成アニメーションを生成するための新しいテスト時間復調手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:39:15Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。