論文の概要: MoFM: A Large-Scale Human Motion Foundation Model
- arxiv url: http://arxiv.org/abs/2502.05432v2
- Date: Tue, 25 Feb 2025 15:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:23.195097
- Title: MoFM: A Large-Scale Human Motion Foundation Model
- Title(参考訳): MoFM: 大規模ヒューマンモーションファンデーションモデル
- Authors: Mohammadreza Baharani, Ghazal Alinezhad Noghre, Armin Danesh Pazho, Gabriel Maldonado, Hamed Tabkhi,
- Abstract要約: ファンデーションモデル(FM)は、様々なタスクにまたがるスケーラビリティと一般化により、研究者の注目を集めている。
MoFMは、時間と空間の両方において複雑な人間の動きを意味的に理解するために設計されている。
MoFMは、ダウンストリームタスクのバックボーンを提供し、ワンショット、教師なし、教師なしタスクなどのパラダイムをサポートする。
- 参考スコア(独自算出の注目度): 2.621434923709917
- License:
- Abstract: Foundation Models (FM) have increasingly drawn the attention of researchers due to their scalability and generalization across diverse tasks. Inspired by the success of FMs and the principles that have driven advancements in Large Language Models (LLMs), we introduce MoFM as a novel Motion Foundation Model. MoFM is designed for the semantic understanding of complex human motions in both time and space. To facilitate large-scale training, MotionBook, a comprehensive human motion dictionary of discretized motions is designed and employed. MotionBook utilizes Thermal Cubes to capture spatio-temporal motion heatmaps, applying principles from discrete variational models to encode human movements into discrete units for a more efficient and scalable representation. MoFM, trained on a large corpus of motion data, provides a foundational backbone adaptable to diverse downstream tasks, supporting paradigms such as one-shot, unsupervised, and supervised tasks. This versatility makes MoFM well-suited for a wide range of motion-based applications.
- Abstract(参考訳): ファンデーションモデル(FM)は、様々なタスクにまたがるスケーラビリティと一般化により、研究者の注目を集めている。
FMの成功とLLM(Large Language Models)の進歩を促す原理に触発されて,MoFMを新しいモーションファンデーションモデルとして紹介する。
MoFMは、時間と空間の両方において複雑な人間の動きを意味的に理解するために設計されている。
大規模トレーニングを容易にするため,離散化動作の総合的な人体動作辞書であるMotionBookを設計・採用した。
MotionBookは、熱キューブを使って時空間の熱マップを捉え、より効率的でスケーラブルな表現のために、人間の動きを離散単位にエンコードする離散変動モデルの原理を適用している。
モーションデータの大規模なコーパスに基づいてトレーニングされたMoFMは、多様な下流タスクに適応可能な基礎的なバックボーンを提供し、ワンショット、教師なし、教師なしタスクなどのパラダイムをサポートする。
この汎用性により、MoFMは幅広いモーションベースのアプリケーションに適している。
関連論文リスト
- MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models [70.78051873517285]
我々は、最初の100万レベルのモーション生成ベンチマークであるMotionBaseを紹介する。
この膨大なデータセットを活用することで、我々の大きな動きモデルは幅広い動きに対して強いパフォーマンスを示す。
動作情報を保存し,コードブックの容量を拡大する,モーショントークン化のための新しい2次元ルックアップフリーアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z) - MoManifold: Learning to Measure 3D Human Motion via Decoupled Joint Acceleration Manifolds [20.83684434910106]
我々は、連続した高次元運動空間における可塑性人間の動きをモデル化した、新しい人間の動きであるMoManifoldを提案する。
具体的には、既存の限られた動きデータから人間の力学をモデル化する新しい結合加速法を提案する。
大規模な実験により、MoManifoldはいくつかの下流タスクにおいて既存のSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-01T15:00:16Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。