論文の概要: Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM
- arxiv url: http://arxiv.org/abs/2403.07487v2
- Date: Fri, 15 Mar 2024 18:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 11:35:28.444745
- Title: Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM
- Title(参考訳): 運動マンバ:階層型および双方向選択型SSMを用いた効率よく長周期な運動生成
- Authors: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang,
- Abstract要約: 状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。
我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 26.777455596989526
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/
- Abstract(参考訳): 人間の動き生成は、生成的コンピュータビジョンにおいて重要な追求であり、長いシーケンスと効率的な動き生成を実現することは依然として困難である。
状態空間モデル(SSM)の最近の進歩、特にMambaは、効率的なハードウェア・アウェア・デザインによる長いシーケンス・モデリングにおいてかなりの可能性を秘めている。
それでも、モーション生成へのSSMの適用は、モーションシーケンスをモデル化するための特別な設計アーキテクチャが欠如しているため、ハードルに直面している。
これらの課題に対処するために、我々はSSMを用いた先駆的な動き生成モデルを示すシンプルで効率的なアプローチであるMotion Mambaを提案する。
具体的には,階層型テンポラルマンバ(HTM)ブロックを設計し,フレーム間の動きの整合性を保つことを目的とした対称U-Netアーキテクチャを用いて,孤立SSMモジュールの様々な数をアンサンブルすることで時間データを処理する。
また,2方向空間マンバ(BSM)ブロックを2方向処理し,時間フレーム内での高精度な動作生成を実現する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
https://steve-zeyu-zhang.github.io/MotionMamba/
関連論文リスト
- Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models [70.78051873517285]
我々は、最初の100万レベルのモーション生成ベンチマークであるMotionBaseを紹介する。
この膨大なデータセットを活用することで、我々の大きな動きモデルは幅広い動きに対して強いパフォーマンスを示す。
動作情報を保存し,コードブックの容量を拡大する,モーショントークン化のための新しい2次元ルックアップフリーアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z) - MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model [18.607106274732885]
我々は、MTP(Mamba moTion Predictor)という、マンバをベースとしたモーションモデルを導入する。
MTPは、物体の時空間的位置ダイナミクスを入力として、バイマンバ符号化層を用いて動きパターンをキャプチャし、次の動きを予測する。
提案するトラッカーであるMambaTrackは、DancetrackやSportsMOTなどのベンチマークで高度なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-17T11:58:47Z) - InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation [31.775481455602634]
現在の手法では、計算コストが高いため、単一の入力として長い動き列を扱うのに苦労している。
自己回帰フレームワーク内で任意の長さの連続的な動き列を生成する手法であるInfiniMotionを提案する。
約8万フレームの連続した1時間の人間の動きを生成することで、その画期的な能力を強調します。
論文 参考訳(メタデータ) (2024-07-14T03:12:19Z) - SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion [12.426879081036116]
スタイル転送は映画、ゲーム、メタバースといったマルチメディアシナリオに広く適用されている。
この分野での現在の研究のほとんどはGANを採用しており、不安定性と収束の問題に繋がる可能性がある。
動作のスタイル特徴をより包括的に学習できるSMCD(Style Motion Conditioned Diffusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-05T08:28:07Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。