論文の概要: T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete
Representations
- arxiv url: http://arxiv.org/abs/2301.06052v2
- Date: Wed, 18 Jan 2023 11:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 12:12:23.522493
- Title: T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete
Representations
- Title(参考訳): T2M-GPT:離散表現によるテキスト記述からの人間の動きの生成
- Authors: Jianrong Zhang, Yangsong Zhang, Xiaodong Cun, Shaoli Huang, Yong
Zhang, Hongwei Zhao, Hongtao Lu and Xi Shen
- Abstract要約: 一般的なトレーニングレシピ (EMA と Code Reset) を用いた単純な CNN ベースの VQ-VAE により,高品質な離散表現が得られることを示す。
その単純さにもかかわらず、我々のT2M-GPTは競合するアプローチよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 28.194796079093603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate a simple and must-known conditional generative
framework based on Vector Quantised-Variational AutoEncoder (VQ-VAE) and
Generative Pre-trained Transformer (GPT) for human motion generation from
textural descriptions. We show that a simple CNN-based VQ-VAE with commonly
used training recipes (EMA and Code Reset) allows us to obtain high-quality
discrete representations. For GPT, we incorporate a simple corruption strategy
during the training to alleviate training-testing discrepancy. Despite its
simplicity, our T2M-GPT shows better performance than competitive approaches,
including recent diffusion-based approaches. For example, on HumanML3D, which
is currently the largest dataset, we achieve comparable performance on the
consistency between text and generated motion (R-Precision), but with FID 0.116
largely outperforming MotionDiffuse of 0.630. Additionally, we conduct analyses
on HumanML3D and observe that the dataset size is a limitation of our approach.
Our work suggests that VQ-VAE still remains a competitive approach for human
motion generation.
- Abstract(参考訳): 本研究では,Vector Quantized-Variational AutoEncoder (VQ-VAE) とGenerative Pre-trained Transformer (GPT) に基づく簡易かつ必須な条件生成フレームワークについて検討する。
一般的なトレーニングレシピ (EMA と Code Reset) を用いた単純な CNN ベースの VQ-VAE により,高品質な離散表現が得られることを示す。
GPTでは、トレーニング中に簡単な汚職対策を取り入れて、トレーニングテストの相違を緩和する。
その単純さにもかかわらず、我々のT2M-GPTは、最近の拡散ベースのアプローチを含む競合アプローチよりも優れたパフォーマンスを示している。
例えば、現在最大のデータセットであるHumanML3Dでは、テキストと生成されたモーション(R-Precision)の一貫性で同等のパフォーマンスを実現していますが、FID 0.116ではMotionDiffuseの0.630を上回っています。
さらに、HumanML3Dの分析を行い、データセットのサイズが我々のアプローチの限界であることを観察する。
我々の研究は、VQ-VAEが未だに人間のモーション生成の競争的アプローチであることを示唆している。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - T2M-HiFiGPT: Generating High Quality Human Motion from Textual
Descriptions with Residual Discrete Representations [0.7614628596146602]
T2M-HiFiGPTは、テキスト記述から人間の動きを合成するための新しい条件付き生成フレームワークである。
我々のCNNベースのRVQ-VAEは、高精度な2次元時間残差離散運動表現を生成可能であることを実証する。
この結果, RVQ-VAEは, VQ-VAEと比較して, 高精度な3次元人体の動きの計測に適していることが判明した。
論文 参考訳(メタデータ) (2023-12-17T06:58:31Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion
Synthesis [59.465092047829835]
我々は、テキストから3次元の人間の動きを抽出する簡単な方法であるTMRを提案する。
提案手法は,最先端のテキスト-モーション合成モデルTEMOSを拡張した。
運動生成損失の維持は、対照的な訓練とともに、優れた性能を得るためには不可欠であることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:52:41Z) - GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training [47.95914618851596]
プレトレーニング中の2つの通常適用ステップがプレトレーニングモデルの性能に決定的な影響を及ぼすことを示す。
そこで本研究では,IMM 用ハードネガティブサンプルのより効果的なマイニングのために,ミニバッチを適応的にサンプリングする,新しいビジョンと言語事前学習手法を提案する。
提案手法は,様々な下流タスクにおいて,計算コストをはるかに削減して,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T11:15:45Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。