論文の概要: CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
- arxiv url: http://arxiv.org/abs/2407.06188v2
- Date: Fri, 09 May 2025 17:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:09.948858
- Title: CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
- Title(参考訳): CrowdMoGen: ゼロショットテキスト駆動の集合モーション生成
- Authors: Yukang Cao, Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu,
- Abstract要約: 我々は、集合モーション生成のための最初のゼロショットフレームワークであるCrowdMoGenを紹介する。
CrowdMoGenは、個人を効果的にグループ化し、テキストプロンプトからイベント整列モーションシーケンスを生成する。
集合運動生成の第1のフレームワークとして、CrowdMoGenは、都市シミュレーション、群衆計画、その他の大規模対話環境における応用を前進させる可能性を秘めている。
- 参考スコア(独自算出の注目度): 43.12717215650305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advances in text-to-motion generation have shown promising results, they typically assume all individuals are grouped as a single unit. Scaling these methods to handle larger crowds and ensuring that individuals respond appropriately to specific events remains a significant challenge. This is primarily due to the complexities of scene planning, which involves organizing groups, planning their activities, and coordinating interactions, and controllable motion generation. In this paper, we present CrowdMoGen, the first zero-shot framework for collective motion generation, which effectively groups individuals and generates event-aligned motion sequences from text prompts. 1) Being limited by the available datasets for training an effective scene planning module in a supervised manner, we instead propose a crowd scene planner that leverages pre-trained large language models (LLMs) to organize individuals into distinct groups. While LLMs offer high-level guidance for group divisions, they lack the low-level understanding of human motion. To address this, we further propose integrating an SMPL-based joint prior to generate context-appropriate activities, which consists of both joint trajectories and textual descriptions. 2) Secondly, to incorporate the assigned activities into the generative network, we introduce a collective motion generator that integrates the activities into a transformer-based network in a joint-wise manner, maintaining the spatial constraints during the multi-step denoising process. Extensive experiments demonstrate that CrowdMoGen significantly outperforms previous approaches, delivering realistic, event-driven motion sequences that are spatially coherent. As the first framework of collective motion generation, CrowdMoGen has the potential to advance applications in urban simulation, crowd planning, and other large-scale interactive environments.
- Abstract(参考訳): 近年のテキスト・ツー・モーション・ジェネレーションの進歩は有望な結果を示しているが、通常はすべての個人が単一の単位としてグループ化されていると仮定する。
大規模なイベントを扱うためにこれらのメソッドをスケールし、個人が特定のイベントに適切に対応できるようにすることは、依然として大きな課題である。
これは主に、グループを組織し、活動を計画し、相互作用を調整し、制御可能な動きを生成するシーンプランニングの複雑さに起因する。
本稿では,集団動作生成のための最初のゼロショットフレームワークであるCrowdMoGenについて述べる。
1) 効率的なシーンプランニングモジュールを教師付きで訓練するための利用可能なデータセットによって制限されているため,事前に訓練された大規模言語モデル(LLM)を活用して個人を別々のグループに分類する群集シーンプランナを提案する。
LLMはグループ分割のための高レベルなガイダンスを提供するが、人間の動作に対する低レベルな理解は欠如している。
そこで本稿では, SMPL をベースとした関節統合手法を提案する。
2)生成ネットワークに割り当てられたアクティビティを組み込むため,複数段階の認知過程において空間的制約を保ちながらトランスフォーマーベースのネットワークに統合する集団運動生成装置を導入する。
大規模な実験により、CrowdMoGenは従来のアプローチよりも大幅に優れており、空間的に一貫性のある現実的なイベント駆動モーションシーケンスを提供する。
集合運動生成の第1のフレームワークとして、CrowdMoGenは、都市シミュレーション、群衆計画、その他の大規模対話環境における応用を前進させる可能性を秘めている。
関連論文リスト
- PMG: Progressive Motion Generation via Sparse Anchor Postures Curriculum Learning [5.247557449370603]
ProMoGenは、軌跡誘導とスパースアンカー動作制御を統合する新しいフレームワークである。
ProMoGenは、統合トレーニングプロセス内で、二重制御パラダイムと単一制御パラダイムの両方をサポートする。
われわれのアプローチはパーソナライズされた動作と構造化されたガイダンスをシームレスに統合し、最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-04-23T13:51:42Z) - Gen-C: Populating Virtual Worlds with Generative Crowds [1.5293427903448022]
我々は,ハイレベルな群衆行動のオーサリング作業を自動化する生成モデルGen-Cを紹介する。
Gen-Cは、実際の群衆のビデオデータの収集と注釈付けという、労働集約的で困難なタスクをバイパスする。
提案手法の有効性を,大学キャンパスと鉄道駅の2つのシナリオで実証する。
論文 参考訳(メタデータ) (2025-04-02T17:33:53Z) - InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions [27.225777494300775]
このフレームワークは、単一のポリシーで、何時間も不完全なMoCapデータからしっかりと学習することができる。
実験の結果,InterMimicは複数のHOIデータセットにまたがって,現実的で多様なインタラクションを生成できることがわかった。
論文 参考訳(メタデータ) (2025-02-27T18:59:12Z) - Programmable Motion Generation for Open-Set Motion Control Tasks [51.73738359209987]
我々は新しいパラダイム、プログラム可能なモーション生成を導入する。
このパラダイムでは、任意の運動制御タスクは原子制約の組み合わせに分解される。
これらの制約は、運動列がそれに付着する程度を定量化するエラー関数にプログラムされる。
論文 参考訳(メタデータ) (2024-05-29T17:14:55Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - SoMoFormer: Social-Aware Motion Transformer for Multi-Person Motion
Prediction [10.496276090281825]
本稿では,ソーシャル・アウェア・モーション・トランスフォーマー(SoMoFormer)を提案する。
SoMoFormerは、変位軌道空間のサブシーケンスから運動特徴を抽出し、各個人に対する局所的およびグローバルなポーズダイナミクスを学習する。
さらに,SoMoFormerに新たなソーシャル・アウェア・アテンション・アテンション・メカニズムを考案し,動的表現をさらに最適化し,相互依存を同時に捉える。
論文 参考訳(メタデータ) (2022-08-19T08:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。