論文の概要: Motion Mamba: Efficient and Long Sequence Motion Generation
- arxiv url: http://arxiv.org/abs/2403.07487v4
- Date: Sat, 3 Aug 2024 07:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:26:29.678563
- Title: Motion Mamba: Efficient and Long Sequence Motion Generation
- Title(参考訳): Motion Mamba: 効率的で長時間の動作生成
- Authors: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang,
- Abstract要約: 状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。
我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 26.777455596989526
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/
- Abstract(参考訳): 人間の動き生成は、生成的コンピュータビジョンにおいて重要な追求であり、長いシーケンスと効率的な動き生成を実現することは依然として困難である。
状態空間モデル(SSM)の最近の進歩、特にMambaは、効率的なハードウェア・アウェア・デザインによる長いシーケンス・モデリングにおいてかなりの可能性を秘めている。
それでも、モーション生成へのSSMの適用は、モーションシーケンスをモデル化するための特別な設計アーキテクチャが欠如しているため、ハードルに直面している。
これらの課題に対処するために、我々はSSMを用いた先駆的な動き生成モデルを示すシンプルで効率的なアプローチであるMotion Mambaを提案する。
具体的には,階層型テンポラルマンバ(HTM)ブロックを設計し,フレーム間の動きの整合性を保つことを目的とした対称U-Netアーキテクチャを用いて,孤立SSMモジュールの様々な数をアンサンブルすることで時間データを処理する。
また,2方向空間マンバ(BSM)ブロックを2方向処理し,時間フレーム内での高精度な動作生成を実現する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
https://steve-zeyu-zhang.github.io/MotionMamba/
関連論文リスト
- SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion [12.426879081036116]
スタイル転送は映画、ゲーム、メタバースといったマルチメディアシナリオに広く適用されている。
この分野での現在の研究のほとんどはGANを採用しており、不安定性と収束の問題に繋がる可能性がある。
動作のスタイル特徴をより包括的に学習できるSMCD(Style Motion Conditioned Diffusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-05T08:28:07Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。