論文の概要: The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
- arxiv url: http://arxiv.org/abs/2510.26794v1
- Date: Thu, 30 Oct 2025 17:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.973611
- Title: The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
- Title(参考訳): 一般化可能な運動生成の探求 : データ・モデル・評価
- Authors: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu,
- Abstract要約: 本稿では,ViGenからMoGenへの知識伝達を,データ,モデリング,評価という3つの重要な柱を通じて体系的に行うフレームワークを提案する。
まず,228,000個の高品質な動作サンプルからなる大規模データセットViMoGen-228Kを紹介する。
第2に,フローマッチングに基づく拡散変換器であるViMoGenを提案する。
第3に,動作品質,迅速な忠実度,一般化能力の詳細な評価を目的とした階層型ベンチマークであるMBenchを提案する。
- 参考スコア(独自算出の注目度): 66.57596758773309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in 3D human motion generation (MoGen) on standard benchmarks, existing models still face a fundamental bottleneck in their generalization capability. In contrast, adjacent generative fields, most notably video generation (ViGen), have demonstrated remarkable generalization in modeling human behaviors, highlighting transferable insights that MoGen can leverage. Motivated by this observation, we present a comprehensive framework that systematically transfers knowledge from ViGen to MoGen across three key pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a large-scale dataset comprising 228,000 high-quality motion samples that integrates high-fidelity optical MoCap data with semantically annotated motions from web videos and synthesized samples generated by state-of-the-art ViGen models. The dataset includes both text-motion pairs and text-video-motion triplets, substantially expanding semantic diversity. Second, we propose ViMoGen, a flow-matching-based diffusion transformer that unifies priors from MoCap data and ViGen models through gated multimodal conditioning. To enhance efficiency, we further develop ViMoGen-light, a distilled variant that eliminates video generation dependencies while preserving strong generalization. Finally, we present MBench, a hierarchical benchmark designed for fine-grained evaluation across motion quality, prompt fidelity, and generalization ability. Extensive experiments show that our framework significantly outperforms existing approaches in both automatic and human evaluations. The code, data, and benchmark will be made publicly available.
- Abstract(参考訳): 近年の標準ベンチマークにおける3次元モーション生成(MoGen)の進歩にもかかわらず、既存のモデルは依然としてその一般化能力の根本的なボトルネックに直面している。
対照的に、隣接する生成分野、特にビデオ生成(ViGen)は、人間の行動のモデリングにおいて顕著な一般化を示し、MoGenが活用できる伝達可能な洞察を強調している。
そこで本研究では,ViGenからMoGenに知識を体系的に伝達する総合的なフレームワークを,データ,モデリング,評価の3つの重要な柱に分けて提案する。
まず,高忠実度光MoCapデータとWebビデオのセマンティック・アノテート・モーションと,最先端のViGenモデルで生成された合成サンプルを統合した,228,000個の高品質な動作サンプルからなる大規模データセットViMoGen-228Kを紹介する。
データセットには、テキストモーションペアとテキストモーショントリプルの両方が含まれており、セマンティックな多様性を大幅に拡大している。
第2に,フローマッチングに基づく拡散変換器であるViMoGenを提案する。
高い一般化を維持しつつ,映像生成依存を排除した蒸留型ViMoGen-lightを開発した。
最後に, 動作品質, 迅速な忠実度, 一般化能力の詳細な評価を目的とした階層型ベンチマークであるMBenchを提案する。
大規模な実験により、我々のフレームワークは、自動評価と人的評価の両方において、既存のアプローチを大きく上回っていることが明らかとなった。
コード、データ、ベンチマークが公開されます。
関連論文リスト
- GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM(3))は、統合された動き表現を学習するための包括的なフレームワークである。
大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。
GenM(3)はHumanML3Dベンチマークで0.035の最先端のFIDを達成し、最先端のメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-03-19T05:56:52Z) - WeGen: A Unified Model for Interactive Multimodal Generation as We Chat [51.78489661490396]
マルチモーダル生成と理解を統合するモデルWeGenを紹介する。
より詳細な指示を省くために、創造性の高い多様な結果を生成することができる。
様々なビジュアル生成ベンチマークにおいて,最先端性能が達成されていることを示す。
論文 参考訳(メタデータ) (2025-03-03T02:50:07Z) - MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - G-NeuroDAVIS: A Neural Network model for generalized embedding, data visualization and sample generation [0.0]
G-NeuroDAVISと呼ばれる新しい生成モデルは、一般化された埋め込みを通して高次元データを視覚化することができる。
G-NeuroDAVISは教師なしと教師なしの両方の設定で訓練できる。
論文 参考訳(メタデータ) (2024-10-18T07:14:08Z) - Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model [33.64263969970544]
3Dのモーション生成はクリエイティブ産業にとって不可欠だ。
近年の進歩は、テキスト駆動モーション生成のためのドメイン知識を持つ生成モデルに依存している。
本稿では拡散モデルに基づく動き生成フレームワークReMoDiffuseを提案する。
論文 参考訳(メタデータ) (2023-04-03T16:29:00Z) - Hierarchical Graph-Convolutional Variational AutoEncoding for Generative
Modelling of Human Motion [1.2599533416395767]
人間の動きのモデルは通常、軌跡予測または行動分類に焦点を当てるが、どちらもまれである。
本稿では,階層的変動オートエンコーダと深部グラフ畳み込みニューラルネットワークに基づく新しいアーキテクチャを提案する。
この階層型グラフ共進化型自己エンコーダ(HG-VAE)は、コヒーレントな動作を生成し、分布外データを検出し、モデルの後部への勾配上昇による欠落データを出力できることを示す。
論文 参考訳(メタデータ) (2021-11-24T16:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。