論文の概要: Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with
Generative Adversarial Affective Expression Learning
- arxiv url: http://arxiv.org/abs/2108.00262v2
- Date: Tue, 3 Aug 2021 10:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 02:21:31.966398
- Title: Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with
Generative Adversarial Affective Expression Learning
- Title(参考訳): Speech2Affective Gestures: 対人感情表現学習による音声合成
- Authors: Uttaran Bhattacharya and Elizabeth Childs and Nicholas Rewkowski and
Dinesh Manocha
- Abstract要約: そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。
本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。
- 参考スコア(独自算出の注目度): 63.06044724907101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a generative adversarial network to synthesize 3D pose sequences
of co-speech upper-body gestures with appropriate affective expressions. Our
network consists of two components: a generator to synthesize gestures from a
joint embedding space of features encoded from the input speech and the seed
poses, and a discriminator to distinguish between the synthesized pose
sequences and real 3D pose sequences. We leverage the Mel-frequency cepstral
coefficients and the text transcript computed from the input speech in separate
encoders in our generator to learn the desired sentiments and the associated
affective cues. We design an affective encoder using multi-scale
spatial-temporal graph convolutions to transform 3D pose sequences into latent,
pose-based affective features. We use our affective encoder in both our
generator, where it learns affective features from the seed poses to guide the
gesture synthesis, and our discriminator, where it enforces the synthesized
gestures to contain the appropriate affective expressions. We perform extensive
evaluations on two benchmark datasets for gesture synthesis from the speech,
the TED Gesture Dataset and the GENEA Challenge 2020 Dataset. Compared to the
best baselines, we improve the mean absolute joint error by 10--33%, the mean
acceleration difference by 8--58%, and the Fr\'echet Gesture Distance by
21--34%. We also conduct a user study and observe that compared to the best
current baselines, around 15.28% of participants indicated our synthesized
gestures appear more plausible, and around 16.32% of participants felt the
gestures had more appropriate affective expressions aligned with the speech.
- Abstract(参考訳): そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。
本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。
我々は,入力音声から出力されるメル周波数ケプストラム係数とテキストの書き起こしを利用して,所望の感情と関連する感情の手がかりを学習する。
マルチスケール空間時間グラフ畳み込みを用いた情緒的エンコーダを設計し,3次元ポーズ列を潜在ポーズに基づく情緒的特徴に変換する。
私たちは、私たちのジェネレータの両方で、感情エンコーダを使って、種子のポーズから感情的な特徴を学び、ジェスチャー合成をガイドし、私たちの識別器は、適切な感情的な表現を含むように、合成されたジェスチャーを強制します。
音声からのジェスチャー合成のための2つのベンチマークデータセット、TED Gesture DatasetとGENEA Challenge 2020 Datasetについて広範な評価を行った。
最良ベースラインと比較して,平均絶対関節誤差を10~33%,平均加速度差を8~58%,Fr'echet Gesture Distanceを21~34%改善した。
また, 被験者の約15.28%が, 合成したジェスチャーの方が分かりやすいと回答し, 被験者の約16.32%は, ジェスチャーが発話に合った感情表現を持っていると感じた。
関連論文リスト
- Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Take an Emotion Walk: Perceiving Emotions from Gaits Using Hierarchical Attention Pooling and Affective Mapping [55.72376663488104]
本稿では、ビデオやモーションキャプチャーデータから得られた歩行スタイルから、知覚された人間の感情を分類するためのオートエンコーダに基づくアプローチを提案する。
3次元ポーズシーケンスから抽出した各ステップのポーズにおける各関節の動きを考慮し、これらの関節の動きをエンコーダに階層的にプールする。
我々はデコーダを訓練し、潜伏埋め込みからトップダウン方式で1ステップ当たりの関節の動きを再構築する。
論文 参考訳(メタデータ) (2019-11-20T05:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。