論文の概要: T2M-HiFiGPT: Generating High Quality Human Motion from Textual
Descriptions with Residual Discrete Representations
- arxiv url: http://arxiv.org/abs/2312.10628v2
- Date: Sun, 24 Dec 2023 01:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:46:07.020132
- Title: T2M-HiFiGPT: Generating High Quality Human Motion from Textual
Descriptions with Residual Discrete Representations
- Title(参考訳): T2M-HiFiGPT:残留離散表現を用いたテキスト記述から高品質な人間の動きを生成する
- Authors: Congyi Wang
- Abstract要約: T2M-HiFiGPTは、テキスト記述から人間の動きを合成するための新しい条件付き生成フレームワークである。
我々のCNNベースのRVQ-VAEは、高精度な2次元時間残差離散運動表現を生成可能であることを実証する。
この結果, RVQ-VAEは, VQ-VAEと比較して, 高精度な3次元人体の動きの計測に適していることが判明した。
- 参考スコア(独自算出の注目度): 0.7614628596146602
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this study, we introduce T2M-HiFiGPT, a novel conditional generative
framework for synthesizing human motion from textual descriptions. This
framework is underpinned by a Residual Vector Quantized Variational AutoEncoder
(RVQ-VAE) and a double-tier Generative Pretrained Transformer (GPT)
architecture. We demonstrate that our CNN-based RVQ-VAE is capable of producing
highly accurate 2D temporal-residual discrete motion representations. Our
proposed double-tier GPT structure comprises a temporal GPT and a residual GPT.
The temporal GPT efficiently condenses information from previous frames and
textual descriptions into a 1D context vector. This vector then serves as a
context prompt for the residual GPT, which generates the final residual
discrete indices. These indices are subsequently transformed back into motion
data by the RVQ-VAE decoder. To mitigate the exposure bias issue, we employ
straightforward code corruption techniques for RVQ and a conditional dropout
strategy, resulting in enhanced synthesis performance. Remarkably, T2M-HiFiGPT
not only simplifies the generative process but also surpasses existing methods
in both performance and parameter efficacy, including the latest
diffusion-based and GPT-based models. On the HumanML3D and KIT-ML datasets, our
framework achieves exceptional results across nearly all primary metrics. We
further validate the efficacy of our framework through comprehensive ablation
studies on the HumanML3D dataset, examining the contribution of each component.
Our findings reveal that RVQ-VAE is more adept at capturing precise 3D human
motion with comparable computational demand compared to its VQ-VAE
counterparts. As a result, T2M-HiFiGPT enables the generation of human motion
with significantly increased accuracy, outperforming recent state-of-the-art
approaches such as T2M-GPT and Att-T2M.
- Abstract(参考訳): 本研究では,テキスト記述から人間の動きを合成するための条件生成フレームワークであるT2M-HiFiGPTを紹介する。
このフレームワークは、Residual Vector Quantized Variational AutoEncoder (RVQ-VAE) と2層生成事前学習トランスフォーマー (GPT) アーキテクチャによって支えられている。
我々のCNNベースのRVQ-VAEは、高精度な2次元時間残差離散運動表現を生成可能であることを示す。
提案する二重層GPT構造は,時間的GPTと残差GPTからなる。
時間GPTは、前のフレームおよびテキスト記述からの情報を1Dコンテキストベクトルに効率的に凝縮する。
このベクトルは、最後の残留離散指標を生成する残差GPTの文脈プロンプトとして機能する。
これらのインデックスは、後にRVQ-VAEデコーダによってモーションデータに変換される。
露光バイアス問題を軽減するために,rvqと条件付きドロップアウト戦略のための簡単なコード破損手法を採用し,合成性能の向上を実現した。
注目すべきは、T2M-HiFiGPTは生成プロセスを単純化するだけでなく、最新の拡散ベースモデルやGPTベースのモデルを含む、性能とパラメータの有効性の両方において既存の手法を超越していることである。
HumanML3DとKIT-MLデータセットでは、ほぼすべての主要なメトリクスで例外的な結果が得られる。
我々は,HumanML3Dデータセットの包括的なアブレーション研究を通じて,各コンポーネントの貢献度を検証し,フレームワークの有効性をさらに検証する。
この結果, RVQ-VAEは, VQ-VAEと比較して, 高精度な3次元人間の動きを捉えるのに適していることがわかった。
その結果、T2M-HiFiGPTは、T2M-GPTやAtt-T2Mといった最近の最先端技術よりも高い精度で人間の動きを生成することができる。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - TSI-GAN: Unsupervised Time Series Anomaly Detection using Convolutional
Cycle-Consistent Generative Adversarial Networks [2.4469484645516837]
異常検出は、ネットワーク侵入検知、自律運転、診断、クレジットカード詐欺などに広く用いられている。
本稿では、複雑な時間パターンを自動的に学習できる時系列の教師なし異常検出モデルであるTSI-GANを提案する。
提案手法は,250個の高度・厳密なデータセットを用いてTSI-GANを評価し,最先端の8つのベースライン手法と比較した。
論文 参考訳(メタデータ) (2023-03-22T23:24:47Z) - T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete
Representations [34.61255243742796]
一般的なトレーニングレシピ (EMA と Code Reset) を用いた単純な CNN ベースの VQ-VAE により,高品質な離散表現が得られることを示す。
その単純さにもかかわらず、我々のT2M-GPTは競合するアプローチよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-01-15T09:34:42Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。