論文の概要: T2LM: Long-Term 3D Human Motion Generation from Multiple Sentences
- arxiv url: http://arxiv.org/abs/2406.00636v1
- Date: Sun, 2 Jun 2024 06:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 04:06:06.971656
- Title: T2LM: Long-Term 3D Human Motion Generation from Multiple Sentences
- Title(参考訳): T2LM:複数文からの長期3次元人体動作生成
- Authors: Taeryung Lee, Fabien Baradel, Thomas Lucas, Kyoung Mu Lee, Gregory Rogez,
- Abstract要約: シーケンシャルデータなしでトレーニングできる連続的な長期生成フレームワークであるT2LMを紹介する。
T2LMは、潜伏ベクトルの列に動きを圧縮するように訓練された1D畳み込みVQVAEと、入力テキストが与えられた潜伏列を予測するTransformerベースのテキストの2つのコンポーネントから構成される。
推論において、文列は遅延ベクトルの連続ストリームに変換される。これはVQVAEデコーダによって復号され、局所的な時間的受容場との1D畳み込みの使用は、トレーニングと生成されたシーケンス間の時間的矛盾を避ける。
- 参考スコア(独自算出の注目度): 47.258957770690685
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we address the challenging problem of long-term 3D human motion generation. Specifically, we aim to generate a long sequence of smoothly connected actions from a stream of multiple sentences (i.e., paragraph). Previous long-term motion generating approaches were mostly based on recurrent methods, using previously generated motion chunks as input for the next step. However, this approach has two drawbacks: 1) it relies on sequential datasets, which are expensive; 2) these methods yield unrealistic gaps between motions generated at each step. To address these issues, we introduce simple yet effective T2LM, a continuous long-term generation framework that can be trained without sequential data. T2LM comprises two components: a 1D-convolutional VQVAE, trained to compress motion to sequences of latent vectors, and a Transformer-based Text Encoder that predicts a latent sequence given an input text. At inference, a sequence of sentences is translated into a continuous stream of latent vectors. This is then decoded into a motion by the VQVAE decoder; the use of 1D convolutions with a local temporal receptive field avoids temporal inconsistencies between training and generated sequences. This simple constraint on the VQ-VAE allows it to be trained with short sequences only and produces smoother transitions. T2LM outperforms prior long-term generation models while overcoming the constraint of requiring sequential data; it is also competitive with SOTA single-action generation models.
- Abstract(参考訳): 本稿では,長期的3次元動作生成の課題に対処する。
具体的には、複数の文(段落)のストリームから、スムーズな接続されたアクションの長いシーケンスを生成することを目的としている。
従来の長期動作生成手法は、主に繰り返し手法に基づいており、前回生成した動作チャンクを次のステップの入力として用いた。
しかし、このアプローチには2つの欠点がある。
1)高価であるシーケンシャルデータセットに依存している。
2) これらの手法は各ステップで発生する動きの間に非現実的なギャップを生じさせる。
これらの問題に対処するために,シーケンシャルデータなしでトレーニング可能な連続的長期生成フレームワークであるT2LMを導入する。
T2LMは、潜伏ベクトルの列に動きを圧縮するように訓練された1D畳み込みVQVAEと、入力テキストが与えられた潜伏列を予測するTransformerベースのテキストエンコーダの2つのコンポーネントから構成される。
推論において、文列は潜在ベクトルの連続ストリームに変換される。
これはVQVAEデコーダによって動作にデコードされ、局所的な時間的受容場と1D畳み込みを使用することで、トレーニングと生成されたシーケンス間の時間的矛盾を回避する。
VQ-VAEのこの単純な制約により、短いシーケンスのみでトレーニングすることができ、より滑らかな遷移を生成することができる。
T2LMは、シーケンシャルデータを必要とする制約を克服しながら、以前の長期モデルよりも優れており、SOTAシングルアクション生成モデルと競合する。
関連論文リスト
- InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation [31.775481455602634]
現在の手法では、計算コストが高いため、単一の入力として長い動き列を扱うのに苦労している。
自己回帰フレームワーク内で任意の長さの連続的な動き列を生成する手法であるInfiniMotionを提案する。
約8万フレームの連続した1時間の人間の動きを生成することで、その画期的な能力を強調します。
論文 参考訳(メタデータ) (2024-07-14T03:12:19Z) - MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。