論文の概要: MoMask: Generative Masked Modeling of 3D Human Motions
- arxiv url: http://arxiv.org/abs/2312.00063v1
- Date: Wed, 29 Nov 2023 19:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:25:47.542390
- Title: MoMask: Generative Masked Modeling of 3D Human Motions
- Title(参考訳): MoMask:3D人間の動きの創発的マスクドモデリング
- Authors: Chuan Guo and Yuxuan Mu and Muhammad Gohar Javed and Sen Wang and Li
Cheng
- Abstract要約: MoMaskはテキスト駆動型3Dモーション生成のための新しいフレームワークである。
階層的な量子化スキームは、人間の動きを離散的な動きトークンとして表現するために用いられる。
MoMaskは、テキスト・ツー・モーション生成タスクにおける最先端メソッドよりも優れています。
- 参考スコア(独自算出の注目度): 25.168781728071046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MoMask, a novel masked modeling framework for text-driven 3D
human motion generation. In MoMask, a hierarchical quantization scheme is
employed to represent human motion as multi-layer discrete motion tokens with
high-fidelity details. Starting at the base layer, with a sequence of motion
tokens obtained by vector quantization, the residual tokens of increasing
orders are derived and stored at the subsequent layers of the hierarchy. This
is consequently followed by two distinct bidirectional transformers. For the
base-layer motion tokens, a Masked Transformer is designated to predict
randomly masked motion tokens conditioned on text input at training stage.
During generation (i.e. inference) stage, starting from an empty sequence, our
Masked Transformer iteratively fills up the missing tokens; Subsequently, a
Residual Transformer learns to progressively predict the next-layer tokens
based on the results from current layer. Extensive experiments demonstrate that
MoMask outperforms the state-of-art methods on the text-to-motion generation
task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset,
and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly
applied in related tasks without further model fine-tuning, such as text-guided
temporal inpainting.
- Abstract(参考訳): テキスト駆動3次元モーション生成のための新しいマスキングモデリングフレームワークであるmomoskを紹介する。
モマスクでは、人間の動きを高忠実度な詳細を持つ多層離散運動トークンとして表現するために階層的量子化スキームが用いられる。
基底層から開始し、ベクトル量子化によって得られた一連の動きトークンを用いて、増加する順序の残留トークンを導出し、階層のその後の層に格納する。
その結果、2つの異なる双方向変換器が続く。
ベース層動作トークンについては、トレーニング段階でテキスト入力に条件付けされたランダムマスクされた動作トークンを予測するために、Masked Transformerが指定される。
空のシーケンスから生成(すなわち推論)段階の間、マスクトランスフォーマーは、欠落したトークンを反復的に満たし、その後、残差トランスフォーマーは、現在のレイヤの結果に基づいて、次のレイヤトークンを徐々に予測することを学びます。
MoMaskは、HumanML3Dデータセット上のFIDは0.045(例えばT2M-GPTの0.141)、KIT-ML上の0.228(vs 0.514)である。
MoMaskはテキスト誘導の時間的インペイントのような細調整をさらにモデル化することなく、関連するタスクにシームレスに適用することができる。
関連論文リスト
- InterMask: 3D Human Interaction Generation via Collaborative Masked Modelling [27.544827331337178]
離散空間におけるマスクモデルを用いたヒューマンインタラクション生成のための新しいフレームワークであるInterMaskを紹介する。
InterMaskは、2人の対話する個人のトークンを協調的にモデル化するために、生成的なマスク付きモデリングフレームワークを使用している。
動作表現の強化、専用のアーキテクチャ、効果的な学習戦略により、InterMaskは高忠実で多様な人間のインタラクションを実現する。
論文 参考訳(メタデータ) (2024-10-13T21:11:04Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - Efficient 3D Instance Mapping and Localization with Neural Fields [39.73128916618561]
本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。
本稿では,新しい視点から3Dインスタンスセグメンテーションマスクを描画するニューラルラベルフィールドを効率的に学習する新しいフレームワークである3DIMLを紹介する。
論文 参考訳(メタデータ) (2024-03-28T19:25:25Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - MMM: Generative Masked Motion Model [10.215003912084944]
MMM は Masked Motion Model に基づく,比較的単純なモーション生成パラダイムである。
あらゆる方向に動きやテキストトークンに参加することで、MMMはモーショントークンとテキストトークン間のセマンティックマッピングの間に固有の依存関係をキャプチャする。
MMMは、編集可能なモーション拡散モデルよりも1つの中距離GPUで2桁高速である。
論文 参考訳(メタデータ) (2023-12-06T16:35:59Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Mask Attention Networks: Rethinking and Strengthen Transformer [70.95528238937861]
Transformerは、セルフアテンションネットワーク(SAN)とフィードフォワードネットワーク(FFN)の2つのサブレイヤからなる注目ベースのニューラルネットワークです。
論文 参考訳(メタデータ) (2021-03-25T04:07:44Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。