Fugu-MT 論文翻訳(概要): Motion Mamba: Efficient and Long Sequence Motion Generation

論文の概要: Motion Mamba: Efficient and Long Sequence Motion Generation

arxiv url: http://arxiv.org/abs/2403.07487v4
Date: Sat, 3 Aug 2024 07:48:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 23:26:29.678563
Title: Motion Mamba: Efficient and Long Sequence Motion Generation
Title（参考訳）: Motion Mamba: 効率的で長時間の動作生成
Authors: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang,
Abstract要約: 状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
参考スコア（独自算出の注目度）: 26.777455596989526
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/
Abstract（参考訳）: 人間の動き生成は、生成的コンピュータビジョンにおいて重要な追求であり、長いシーケンスと効率的な動き生成を実現することは依然として困難である。状態空間モデル(SSM)の最近の進歩、特にMambaは、効率的なハードウェア・アウェア・デザインによる長いシーケンス・モデリングにおいてかなりの可能性を秘めている。それでも、モーション生成へのSSMの適用は、モーションシーケンスをモデル化するための特別な設計アーキテクチャが欠如しているため、ハードルに直面している。これらの課題に対処するために、我々はSSMを用いた先駆的な動き生成モデルを示すシンプルで効率的なアプローチであるMotion Mambaを提案する。具体的には,階層型テンポラルマンバ(HTM)ブロックを設計し,フレーム間の動きの整合性を保つことを目的とした対称U-Netアーキテクチャを用いて,孤立SSMモジュールの様々な数をアンサンブルすることで時間データを処理する。また,2方向空間マンバ(BSM)ブロックを2方向処理し,時間フレーム内での高精度な動作生成を実現する。提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。 https://steve-zeyu-zhang.github.io/MotionMamba/

関連論文リスト

TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition [59.99922360648663]
TSkel-Mambaは、空間力学と時間力学の両方を効果的に捉えるハイブリッドトランスフォーマー-Mambaフレームワークである。 MTIモジュールはマルチスケールのCycle演算子を使用して、チャネル間の時間的相互作用をキャプチャする。
論文参考訳（メタデータ） (2025-12-12T11:55:16Z)
M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。 M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-11T04:48:12Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
Motion Anything: Any to Motion Generation [24.769413146731264]
Motion Anythingはマルチモーダルモーション生成フレームワークである。我々のモデルは、テキストや音楽を含む多モード条件を適応的に符号化し、制御性を向上させる。 Text-Music-Danceデータセットは2,153対のテキスト、音楽、ダンスで構成されており、AIST++の2倍の大きさである。
論文参考訳（メタデータ） (2025-03-10T06:04:31Z)
FRMD: Fast Robot Motion Diffusion with Consistency-Distilled Movement Primitives for Smooth Action Generation [3.7351623987275873]
本研究では,スムーズかつ時間的に一貫したロボットの動きを生成するための高速ロボット運動拡散法を提案する。本手法は,移動プリミティブ(MP)と一貫性モデルを統合し,効率的な単一ステップ軌道生成を実現する。その結果,FRMDはより高速でスムーズな軌道を発生し,高い成功率を達成できた。
論文参考訳（メタデータ） (2025-03-03T20:56:39Z)
Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models [70.78051873517285]
我々は、最初の100万レベルのモーション生成ベンチマークであるMotionBaseを紹介する。この膨大なデータセットを活用することで、我々の大きな動きモデルは幅広い動きに対して強いパフォーマンスを示す。動作情報を保存し,コードブックの容量を拡大する,モーショントークン化のための新しい2次元ルックアップフリーアプローチを提案する。
論文参考訳（メタデータ） (2024-10-04T10:48:54Z)
Lagrangian Motion Fields for Long-term Motion Generation [51.02126882968116]
本稿では,ラグランジアン運動場の概念について紹介する。各関節を短い間隔で一様速度でラグランジアン粒子として扱うことにより、我々のアプローチは運動表現を一連の「超運動」に凝縮する。私たちのソリューションは万能で軽量で、ニューラルネットワークの前処理の必要性を排除しています。
論文参考訳（メタデータ） (2024-09-03T01:38:06Z)
MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model [18.607106274732885]
我々は、MTP(Mamba moTion Predictor)という、マンバをベースとしたモーションモデルを導入する。 MTPは、物体の時空間的位置ダイナミクスを入力として、バイマンバ符号化層を用いて動きパターンをキャプチャし、次の動きを予測する。提案するトラッカーであるMambaTrackは、DancetrackやSportsMOTなどのベンチマークで高度なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-08-17T11:58:47Z)
InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation [31.775481455602634]
現在の手法では、計算コストが高いため、単一の入力として長い動き列を扱うのに苦労している。自己回帰フレームワーク内で任意の長さの連続的な動き列を生成する手法であるInfiniMotionを提案する。約8万フレームの連続した1時間の人間の動きを生成することで、その画期的な能力を強調します。
論文参考訳（メタデータ） (2024-07-14T03:12:19Z)
SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion [12.426879081036116]
スタイル転送は映画、ゲーム、メタバースといったマルチメディアシナリオに広く適用されている。この分野での現在の研究のほとんどはGANを採用しており、不安定性と収束の問題に繋がる可能性がある。動作のスタイル特徴をより包括的に学習できるSMCD(Style Motion Conditioned Diffusion)フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-05T08:28:07Z)
Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。 LMMは3つの原則的な側面からこれらの課題に取り組む。
論文参考訳（メタデータ） (2024-04-01T17:55:11Z)
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文参考訳（メタデータ） (2024-03-29T00:05:13Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。微細な動きを合成し、ユーザの指示に時空間の合成を施す。 FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文参考訳（メタデータ） (2023-12-22T16:56:02Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-06-05T04:24:11Z)
LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。 LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。