論文の概要: Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation
- arxiv url: http://arxiv.org/abs/2412.07797v1
- Date: Thu, 05 Dec 2024 08:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:31.820501
- Title: Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation
- Title(参考訳): Mogo: 高品質な3Dモーション生成のためのRQ階層型因果変換器
- Authors: Dongjie Fu,
- Abstract要約: ベルト型マスケモデル(MoMask, MMM)は現在、GPT型自己回帰モデル(T2M-GPT)と比較して高品質な出力を生成する。
本研究では,1つのトランスモデルをトレーニングすることにより,高品質な3D動作を実現する新しいアーキテクチャであるMogoを提案する。
Mogoは、HumanML3Dのような既存のデータセットの196フレーム(10秒)を超える、最大260フレーム (13秒)の連続的かつ循環的なモーションシーケンスを生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In the field of text-to-motion generation, Bert-type Masked Models (MoMask, MMM) currently produce higher-quality outputs compared to GPT-type autoregressive models (T2M-GPT). However, these Bert-type models often lack the streaming output capability required for applications in video game and multimedia environments, a feature inherent to GPT-type models. Additionally, they demonstrate weaker performance in out-of-distribution generation. To surpass the quality of BERT-type models while leveraging a GPT-type structure, without adding extra refinement models that complicate scaling data, we propose a novel architecture, Mogo (Motion Only Generate Once), which generates high-quality lifelike 3D human motions by training a single transformer model. Mogo consists of only two main components: 1) RVQ-VAE, a hierarchical residual vector quantization variational autoencoder, which discretizes continuous motion sequences with high precision; 2) Hierarchical Causal Transformer, responsible for generating the base motion sequences in an autoregressive manner while simultaneously inferring residuals across different layers. Experimental results demonstrate that Mogo can generate continuous and cyclic motion sequences up to 260 frames (13 seconds), surpassing the 196 frames (10 seconds) length limitation of existing datasets like HumanML3D. On the HumanML3D test set, Mogo achieves a FID score of 0.079, outperforming both the GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) and the BERT-type model MMM (FID = 0.080). Furthermore, our model achieves the best quantitative performance in out-of-distribution generation.
- Abstract(参考訳): テキスト・ツー・モーション生成の分野では、ベルト型マスケッド・モデル(MoMask, MMM)がGPT型自己回帰モデル(T2M-GPT)と比較して高品質な出力を生成する。
しかしながら、これらのバート型モデルは、GPT型モデル固有の機能である、ビデオゲームやマルチメディア環境でのアプリケーションに必要なストリーミング出力能力に欠けることが多い。
さらに、アウト・オブ・ディストリビューション・ジェネレーションにおいて、より弱いパフォーマンスを示す。
GPT型構造を活用しながらBERT型モデルの品質を超越し、スケーリングデータを複雑にする余分な洗練モデルを加えることなく、単一トランスフォーマーモデルをトレーニングすることで高品質な3Dモーションを生成する新しいアーキテクチャであるMogo(Motion Only Generate Once)を提案する。
Mogoは2つの主要コンポーネントで構成されている。
1) RVQ-VAEは階層的残差ベクトル量子化変分オートエンコーダで、高い精度で連続的な動き列を識別する。
2) 階層型因果変換器は, 異なる層にまたがる残差を同時に推測しながら, 自己回帰的に基本運動列を生成する。
実験の結果、Mogoは最大260フレーム (13秒) の連続的かつ循環的な動き列を生成でき、HumanML3Dのような既存のデータセットの196フレーム (10秒) の制限を超えることが示されている。
HumanML3Dテストセットでは、MogoはGPT型モデルT2M-GPT(FID = 0.116)、AttT2M(FID = 0.112)、BERT型モデルMMM(FID = 0.080)よりも優れた0.079のFIDスコアを達成している。
さらに,本モデルでは,アウト・オブ・ディストリビューション生成において,最高の定量的性能を実現する。
関連論文リスト
- Flow Generator Matching [35.371071097381346]
フロージェネレータマッチング(FGM)は、フローマッチングモデルのサンプリングをワンステップ生成に高速化するように設計されている。
CIFAR10の非条件生成ベンチマークでは、1段階のFGMモデルが新たなFr'echet Inception Distance(FID)スコア3.08を達成した。
MM-DiT-FGMワンステップテキスト・ツー・イメージモデルでは,業界レベルでの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-25T05:41:28Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - T2M-HiFiGPT: Generating High Quality Human Motion from Textual
Descriptions with Residual Discrete Representations [0.7614628596146602]
T2M-HiFiGPTは、テキスト記述から人間の動きを合成するための新しい条件付き生成フレームワークである。
我々のCNNベースのRVQ-VAEは、高精度な2次元時間残差離散運動表現を生成可能であることを実証する。
この結果, RVQ-VAEは, VQ-VAEと比較して, 高精度な3次元人体の動きの計測に適していることが判明した。
論文 参考訳(メタデータ) (2023-12-17T06:58:31Z) - Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture [31.763186154430347]
新しいアーキテクチャであるMonarch Mixer (M2)を導入し、配列長とモデル次元の両方で同じサブクアクラティックプリミティブを使用する。
概念実証として,非因果型BERT型言語モデリング,ViT型分類,因果型GPT型言語モデリングの3分野におけるM2の性能について検討する。
非因果的 BERT スタイルのモデリングでは、M2 は BERT-base と BERT-large と GLUE の品質を最大 27% のパラメータで一致させ、最大 9.1$times のシーケンス長 4K でのスループット向上を実現した。
論文 参考訳(メタデータ) (2023-10-18T17:06:22Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。