論文の概要: 3d human motion generation from the text via gesture action
classification and the autoregressive model
- arxiv url: http://arxiv.org/abs/2211.10003v1
- Date: Fri, 18 Nov 2022 03:05:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:36:01.949935
- Title: 3d human motion generation from the text via gesture action
classification and the autoregressive model
- Title(参考訳): ジェスチャー動作分類と自己回帰モデルを用いたテキストからの3次元動作生成
- Authors: Gwantae Kim, Youngsuk Ryu, Junyeop Lee, David K. Han, Jeongmin Bae and
Hanseok Ko
- Abstract要約: このモデルは、手を振ってうなずくといった人間の思考を表現する特別なジェスチャーを生成することに焦点を当てている。
いくつかの実験により,本手法はテキストから知覚的に自然でリアルな3次元動作を生成することに成功した。
- 参考スコア(独自算出の注目度): 28.76063248241159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, a deep learning-based model for 3D human motion generation
from the text is proposed via gesture action classification and an
autoregressive model. The model focuses on generating special gestures that
express human thinking, such as waving and nodding. To achieve the goal, the
proposed method predicts expression from the sentences using a text
classification model based on a pretrained language model and generates
gestures using the gate recurrent unit-based autoregressive model. Especially,
we proposed the loss for the embedding space for restoring raw motions and
generating intermediate motions well. Moreover, the novel data augmentation
method and stop token are proposed to generate variable length motions. To
evaluate the text classification model and 3D human motion generation model, a
gesture action classification dataset and action-based gesture dataset are
collected. With several experiments, the proposed method successfully generates
perceptually natural and realistic 3D human motion from the text. Moreover, we
verified the effectiveness of the proposed method using a public-available
action recognition dataset to evaluate cross-dataset generalization
performance.
- Abstract(参考訳): 本稿では, ジェスチャー動作分類と自己回帰モデルを用いて, テキストからの3次元動作生成のための深層学習モデルを提案する。
このモデルは、手を振ってうなずくといった人間の思考を表現する特別なジェスチャーを生成することに焦点を当てている。
提案手法は,事前学習された言語モデルに基づくテキスト分類モデルを用いて文から表現を予測し,ゲートリカレント単位系自己回帰モデルを用いてジェスチャを生成する。
特に, 原動を復元し, 中間動を良好に生成するための埋め込み空間の損失について提案した。
さらに,可変長動作を生成するために,新しいデータ拡張法とストップトークンを提案する。
テキスト分類モデルと3次元人間の動作生成モデルを評価するために、ジェスチャー行動分類データセットとアクションに基づくジェスチャーデータセットを収集する。
提案手法は,テキストから知覚的に自然かつ現実的な3次元人間の動きを生成することに成功した。
さらに,公開可能な行動認識データセットを用いて,クロスデータセットの一般化性能を評価する手法の有効性を検証した。
関連論文リスト
- MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Semantics-aware Motion Retargeting with Vision-Language Models [19.53696208117539]
本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。
我々は3次元動作のレンダリングに微分可能モジュールを使用し、視覚言語モデルに入力し、抽出したセマンティック埋め込みを整合させることにより、高レベルなモーションセマンティクスを動作プロセスに組み込む。
微粒な動きの詳細と高レベルのセマンティクスの保存を確保するため、スケルトンを意識した事前学習とセマンティクスと幾何制約による微調整からなる2段階パイプラインを採用する。
論文 参考訳(メタデータ) (2023-12-04T15:23:49Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Diffusion Motion: Generate Text-Guided 3D Human Motion by Diffusion
Model [7.381316531478522]
本稿では,複雑な自然言語文から3次元人物の動きを生成するための,シンプルで斬新な手法を提案する。
テキストの指導の下で様々な動作結果を生成するために,Denoising Diffusion Probabilistic Model を用いる。
我々の実験は,HumanML3Dテストセットにおけるモデル競合の結果を定量的に検証し,より視覚的に自然で多様な例を生成できることを実証した。
論文 参考訳(メタデータ) (2022-10-22T00:41:17Z) - Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文 参考訳(メタデータ) (2021-06-17T08:08:11Z) - HuMoR: 3D Human Motion Model for Robust Pose Estimation [100.55369985297797]
HuMoRは、時間的ポーズと形状のロバスト推定のための3Dヒューマンモーションモデルです。
モーションシーケンスの各ステップにおけるポーズの変化の分布を学習する条件付き変分オートエンコーダについて紹介する。
本モデルが大規模モーションキャプチャーデータセットのトレーニング後に多様な動きや体型に一般化することを示す。
論文 参考訳(メタデータ) (2021-05-10T21:04:55Z) - Graph-based Normalizing Flow for Human Motion Generation and
Reconstruction [20.454140530081183]
過去の情報と制御信号に基づく長地平線運動系列を合成・再構築する確率生成モデルを提案する。
足踏み解析と骨長解析を併用したモーションキャプチャデータセットを用いたモデル評価を行った。
論文 参考訳(メタデータ) (2021-04-07T09:51:15Z) - History Repeats Itself: Human Motion Prediction via Motion Attention [81.94175022575966]
注意に基づくフィードフォワードネットワークを導入し、人間の動きが自分自身を繰り返す傾向にあるという観察を明示的に活用する。
特に,現在動きのコンテキストと過去の動きのサブシーケンスの類似性を捉えるために,動きの注意を抽出することを提案する。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を実証した。
論文 参考訳(メタデータ) (2020-07-23T02:12:27Z) - Moving fast and slow: Analysis of representations and post-processing in
speech-driven automatic gesture generation [7.6857153840014165]
我々は,表現学習を取り入れた音声によるジェスチャー生成のための,近年のディープラーニングに基づくデータ駆動手法を拡張した。
我々のモデルは音声を入力とし、3次元座標列の形式でジェスチャーを出力として生成する。
自動ジェスチャー生成法の設計において,動作表現と後処理の両方を考慮に入れることが重要であると結論付けた。
論文 参考訳(メタデータ) (2020-07-16T07:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。