論文の概要: BAMM: Bidirectional Autoregressive Motion Model
- arxiv url: http://arxiv.org/abs/2403.19435v3
- Date: Mon, 1 Apr 2024 13:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:25:26.471950
- Title: BAMM: Bidirectional Autoregressive Motion Model
- Title(参考訳): BAMM:双方向自己回帰運動モデル
- Authors: Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang, Minwoo Lee, Srijan Das, Chen Chen,
- Abstract要約: Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
- 参考スコア(独自算出の注目度): 14.668729995275807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating human motion from text has been dominated by denoising motion models either through diffusion or generative masking process. However, these models face great limitations in usability by requiring prior knowledge of the motion length. Conversely, autoregressive motion models address this limitation by adaptively predicting motion endpoints, at the cost of degraded generation quality and editing capabilities. To address these challenges, we propose Bidirectional Autoregressive Motion Model (BAMM), a novel text-to-motion generation framework. BAMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into discrete tokens in latent space, and (2) a masked self-attention transformer that autoregressively predicts randomly masked tokens via a hybrid attention masking strategy. By unifying generative masked modeling and autoregressive modeling, BAMM captures rich and bidirectional dependencies among motion tokens, while learning the probabilistic mapping from textual inputs to motion outputs with dynamically-adjusted motion sequence length. This feature enables BAMM to simultaneously achieving high-quality motion generation with enhanced usability and built-in motion editability. Extensive experiments on HumanML3D and KIT-ML datasets demonstrate that BAMM surpasses current state-of-the-art methods in both qualitative and quantitative measures. Our project page is available at https://exitudio.github.io/BAMM-page
- Abstract(参考訳): テキストから人間の動きを生成することは、拡散または生成マスキングのプロセスを通じて、動きモデルを認知させることによって支配されている。
しかし、これらのモデルは、運動長に関する事前の知識を必要とすることによって、ユーザビリティに大きな制限に直面している。
逆に、自己回帰運動モデルは、劣化した生成品質と編集能力を犠牲にして、動きの終端を適応的に予測することで、この制限に対処する。
これらの課題に対処するために,新たなテキスト・ツー・モーション生成フレームワークである双方向自動回帰運動モデル(BAMM)を提案する。
BAMMは,(1)3次元の人間の動きを潜在空間の離散トークンに変換するモーション・トークンライザ,(2)ハイブリット・アテンション・マスキング戦略によってランダムにマスクされたトークンを自動予測するマスキング・セルフアテンション・トランスフォーマーの2つの重要な構成要素から構成される。
生成マスクモデリングと自己回帰モデリングを統一することにより、BAMMはモーショントークン間のリッチで双方向な依存関係をキャプチャし、テキスト入力から動的に調整されたモーションシーケンス長のモーション出力への確率的マッピングを学習する。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
HumanML3DとKIT-MLデータセットの大規模な実験により、BAMMは定性的および定量的な測定において現在の最先端の手法を超越していることが示された。
私たちのプロジェクトページはhttps://exitudio.github.io/BAMM-pageで公開されています。
関連論文リスト
- MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - MMM: Generative Masked Motion Model [10.215003912084944]
MMM は Masked Motion Model に基づく,比較的単純なモーション生成パラダイムである。
あらゆる方向に動きやテキストトークンに参加することで、MMMはモーショントークンとテキストトークン間のセマンティックマッピングの間に固有の依存関係をキャプチャする。
MMMは、編集可能なモーション拡散モデルよりも1つの中距離GPUで2桁高速である。
論文 参考訳(メタデータ) (2023-12-06T16:35:59Z) - MoMask: Generative Masked Modeling of 3D Human Motions [25.168781728071046]
MoMaskはテキスト駆動型3Dモーション生成のための新しいフレームワークである。
階層的な量子化スキームは、人間の動きを離散的な動きトークンとして表現するために用いられる。
MoMaskは、テキスト・ツー・モーション生成タスクにおける最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-29T19:04:10Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Controllable Motion Diffusion Model [59.52889433954535]
制御可能な運動拡散モデル(COMODO)の枠組みを提案する。
我々のフレームワークは自動回帰運動拡散モデル(A-MDM)から始まり、ステップごとに動きのシーケンスを生成する。
そこで本研究では,A-MDMモデル上での強化学習に基づく制御手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Human Motion Diffusion Model [35.05219668478535]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。
我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2022-09-29T16:27:53Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。