論文の概要: UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons
- arxiv url: http://arxiv.org/abs/2309.07051v1
- Date: Wed, 13 Sep 2023 16:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 13:40:36.204939
- Title: UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons
- Title(参考訳): Unified Gesture: 複数の骨格に対する統一ジェスチャー合成モデル
- Authors: Sicheng Yang, Zilin Wang, Zhiyong Wu, Minglei Li, Zhensong Zhang,
Qiaochu Huang, Lei Hao, Songcen Xu, Xiaofei Wu, changpeng yang, Zonghong Dai
- Abstract要約: 本稿では,異なる骨格を持つ複数のジェスチャーデータセットに基づいて学習した,拡散モデルに基づく音声駆動ジェスチャー合成手法を提案する。
次に、局所的注意と自己注意を用いた拡散モデルアーキテクチャに基づいて、音声とジェスチャーの相関関係を抽出する。
実験により、UnifiedGestureは、CCA、FGD、人間類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 16.52004713662265
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The automatic co-speech gesture generation draws much attention in computer
animation. Previous works designed network structures on individual datasets,
which resulted in a lack of data volume and generalizability across different
motion capture standards. In addition, it is a challenging task due to the weak
correlation between speech and gestures. To address these problems, we present
UnifiedGesture, a novel diffusion model-based speech-driven gesture synthesis
approach, trained on multiple gesture datasets with different skeletons.
Specifically, we first present a retargeting network to learn latent
homeomorphic graphs for different motion capture standards, unifying the
representations of various gestures while extending the dataset. We then
capture the correlation between speech and gestures based on a diffusion model
architecture using cross-local attention and self-attention to generate better
speech-matched and realistic gestures. To further align speech and gesture and
increase diversity, we incorporate reinforcement learning on the discrete
gesture units with a learned reward function. Extensive experiments show that
UnifiedGesture outperforms recent approaches on speech-driven gesture
generation in terms of CCA, FGD, and human-likeness. All code, pre-trained
models, databases, and demos are available to the public at
https://github.com/YoungSeng/UnifiedGesture.
- Abstract(参考訳): 自動協調ジェスチャ生成は、コンピュータアニメーションに多くの注目を集める。
以前の研究は個々のデータセット上のネットワーク構造を設計し、結果としてデータボリュームの欠如とさまざまなモーションキャプチャ標準の一般化が可能になった。
また, 音声とジェスチャーの相関が弱いため, 難易度の高い課題である。
これらの問題に対処するために,新しい拡散モデルに基づく音声駆動ジェスチャ合成手法であるunifiedgestureを提案する。
具体的には、まず、異なるモーションキャプチャ標準のための潜時相グラフを学習するための再ターゲットネットワークを提示し、データセットを拡張しながら様々なジェスチャーの表現を統一する。
次に、局所的注意と自己注意を用いて拡散モデルアーキテクチャに基づく音声とジェスチャーの相関関係を捉え、より優れた音声マッチングと現実的なジェスチャーを生成する。
音声とジェスチャーをさらに整合させ,多様性を高めるために,離散的なジェスチャーユニットに強化学習を学習報酬関数に組み込む。
広汎な実験により、UnifiedGestureは、CCA、FGD、および人間の類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。
すべてのコード、事前訓練されたモデル、データベース、デモはhttps://github.com/YoungSeng/UnifiedGesture.comで公開されている。
関連論文リスト
- Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer [42.87095473590205]
音声からの3次元身体ジェスチャー自動合成のための新しいフレームワークを提案する。
本システムは,Trinity 音声位置推定データセットあるいは Talking With Hands 16.2M データセットを用いて学習する。
その結果,本システムは既存の最先端手法と比較して,より現実的で,適切で,多様な身体ジェスチャーを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-07T01:11:11Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。