論文の概要: Real-time Gesture Animation Generation from Speech for Virtual Human
Interaction
- arxiv url: http://arxiv.org/abs/2208.03244v1
- Date: Fri, 5 Aug 2022 15:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:46:53.330363
- Title: Real-time Gesture Animation Generation from Speech for Virtual Human
Interaction
- Title(参考訳): 仮想ヒューマンインタラクションのための音声からのリアルタイムジェスチャーアニメーション生成
- Authors: Manuel Rebol, Christian G\"utl, Krzysztof Pietroszek
- Abstract要約: 音声から直接ジェスチャーを合成するリアルタイムシステムを提案する。
データ駆動型アプローチは、ジェネレーティブ・アドバイサル・ニューラル・ニューラルネットワークに基づいている。
モデルは2秒間の連続的な音声入力チャンクを受信することで、話者固有のジェスチャーを生成する。
- 参考スコア(独自算出の注目度): 9.453554184019108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a real-time system for synthesizing gestures directly from speech.
Our data-driven approach is based on Generative Adversarial Neural Networks to
model the speech-gesture relationship. We utilize the large amount of speaker
video data available online to train our 3D gesture model. Our model generates
speaker-specific gestures by taking consecutive audio input chunks of two
seconds in length. We animate the predicted gestures on a virtual avatar. We
achieve a delay below three seconds between the time of audio input and gesture
animation. Code and videos are available at
https://github.com/mrebol/Gestures-From-Speech
- Abstract(参考訳): 音声から直接ジェスチャーを合成するリアルタイムシステムを提案する。
データ駆動型アプローチは、音声・姿勢関係をモデル化するジェネレーティブ・アドバイサルニューラルネットワークに基づいている。
オンラインで利用可能な大量の話者ビデオデータを利用して3Dジェスチャーモデルを訓練する。
本モデルは,2秒間の連続的な音声入力チャンクを受信することで,話者固有のジェスチャーを生成する。
仮想アバター上で予測されたジェスチャーをアニメーション化する。
音声入力とジェスチャアニメーションの3秒以内の遅延を実現する。
コードとビデオはhttps://github.com/mrebol/gestures-from-speechで入手できる。
関連論文リスト
- CoCoGesture: Toward Coherent Co-speech 3D Gesture Generation in the Wild [44.401536230814465]
CoCoGestureは、目に見えない人間の音声プロンプトから鮮明で多様なジェスチャー合成を可能にする新しいフレームワークである。
私たちの重要な洞察は、カスタム設計のトレーニングパラダイムに基づいています。
提案するCoCoGesture は,ゼロショット音声・ジェスチャー生成における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-05-27T06:47:14Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses [36.00309828380724]
本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-07-17T19:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。