論文の概要: GENMO: A GENeralist Model for Human MOtion
- arxiv url: http://arxiv.org/abs/2505.01425v1
- Date: Fri, 02 May 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.10137
- Title: GENMO: A GENeralist Model for Human MOtion
- Title(参考訳): GENMO:人間の行動のジェネリストモデル
- Authors: Jiefeng Li, Jinkun Cao, Haotian Zhang, Davis Rempe, Jan Kautz, Umar Iqbal, Ye Yuan,
- Abstract要約: 本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
- 参考スコア(独自算出の注目度): 64.16188966024542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion modeling traditionally separates motion generation and estimation into distinct tasks with specialized models. Motion generation models focus on creating diverse, realistic motions from inputs like text, audio, or keyframes, while motion estimation models aim to reconstruct accurate motion trajectories from observations like videos. Despite sharing underlying representations of temporal dynamics and kinematics, this separation limits knowledge transfer between tasks and requires maintaining separate models. We present GENMO, a unified Generalist Model for Human Motion that bridges motion estimation and generation in a single framework. Our key insight is to reformulate motion estimation as constrained motion generation, where the output motion must precisely satisfy observed conditioning signals. Leveraging the synergy between regression and diffusion, GENMO achieves accurate global motion estimation while enabling diverse motion generation. We also introduce an estimation-guided training objective that exploits in-the-wild videos with 2D annotations and text descriptions to enhance generative diversity. Furthermore, our novel architecture handles variable-length motions and mixed multimodal conditions (text, audio, video) at different time intervals, offering flexible control. This unified approach creates synergistic benefits: generative priors improve estimated motions under challenging conditions like occlusions, while diverse video data enhances generation capabilities. Extensive experiments demonstrate GENMO's effectiveness as a generalist framework that successfully handles multiple human motion tasks within a single model.
- Abstract(参考訳): 人間の動作モデリングは伝統的に、運動の生成と推定を専門的なモデルで個別のタスクに分けている。
モーション生成モデルは、テキスト、オーディオ、キーフレームなどの入力から多様なリアルなモーションを作成することに焦点を当て、モーション推定モデルは、ビデオのような観察から正確なモーショントラジェクトリを再構築することを目的としている。
時間力学と運動学の基本的な表現を共有しているにもかかわらず、この分離はタスク間の知識伝達を制限し、別々のモデルを維持する必要がある。
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
回帰と拡散の相乗効果を利用して、genMOは多様な動きの生成を可能にしながら、正確なグローバルな動き推定を実現する。
また,2次元アノテーションとテキスト記述を駆使して生成多様性を向上する,推定誘導学習手法も導入した。
さらに, 可変長動きと混合マルチモーダル条件(テキスト, 音声, ビデオ)を異なる時間間隔で処理し, フレキシブルな制御を実現する。
この統合されたアプローチは、シナジスティックな利点を生み出す: 生成的事前は、閉塞のような困難な条件下での推定運動を改善する一方、多様なビデオデータは生成能力を向上する。
大規模な実験は、単一のモデル内で複数の人間の動作タスクをうまく処理するジェネラリストフレームワークとしてのGENMOの有効性を示す。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - MDMP: Multi-modal Diffusion for supervised Motion Predictions with uncertainty [7.402769693163035]
本稿では,運動予測のための多モード拡散モデルを提案する。
骨格データと行動のテキスト記述を統合し、定量性のある不確実性を伴う洗練された長期動作予測を生成する。
我々のモデルは、長期動作を正確に予測する上で、既存の生成技術よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-04T18:49:00Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Stochastic Multi-Person 3D Motion Forecasting [21.915057426589744]
我々は、人間の動き予測に先立つ作業において、無視された現実世界の複雑さに対処する。
私たちのフレームワークは一般的なもので、異なる生成モデルでインスタンス化します。
このアプローチは多種多人数の予測を多種多様な精度で生成し,技術水準を著しく上回っている。
論文 参考訳(メタデータ) (2023-06-08T17:59:09Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z) - Dynamic Future Net: Diversified Human Motion Generation [31.987602940970888]
人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。
我々は,人間の運動力学の本質的な運動性に着目した新しい深層学習モデルであるDynamic Future Netを提案する。
我々のモデルでは、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方の変動を視覚的に解析することができる。
論文 参考訳(メタデータ) (2020-08-25T02:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。