論文の概要: Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech
- arxiv url: http://arxiv.org/abs/2107.00712v1
- Date: Thu, 1 Jul 2021 19:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:52:36.504400
- Title: Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech
- Title(参考訳): 非言語的チューリングテストの通過:音声によるジェスチャーアニメーションの評価
- Authors: Manuel Rebol and Christian G\"utl and Krzysztof Pietroszek
- Abstract要約: 本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
- 参考スコア(独自算出の注目度): 6.445605125467574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real life, people communicate using both speech and non-verbal signals
such as gestures, face expression or body pose. Non-verbal signals impact the
meaning of the spoken utterance in an abundance of ways. An absence of
non-verbal signals impoverishes the process of communication. Yet, when users
are represented as avatars, it is difficult to translate non-verbal signals
along with the speech into the virtual world without specialized motion-capture
hardware. In this paper, we propose a novel, data-driven technique for
generating gestures directly from speech. Our approach is based on the
application of Generative Adversarial Neural Networks (GANs) to model the
correlation rather than causation between speech and gestures. This approach
approximates neuroscience findings on how non-verbal communication and speech
are correlated. We create a large dataset which consists of speech and
corresponding gestures in a 3D human pose format from which our model learns
the speaker-specific correlation. We evaluate the proposed technique in a user
study that is inspired by the Turing test. For the study, we animate the
generated gestures on a virtual character. We find that users are not able to
distinguish between the generated and the recorded gestures. Moreover, users
are able to identify our synthesized gestures as related or not related to a
given utterance.
- Abstract(参考訳): 実生活では、人々はジェスチャー、顔の表情、身体のポーズといった言葉以外の信号を使ってコミュニケーションする。
非言語信号は、多くの方法で話し言葉の意味に影響を及ぼす。
非言語信号の欠如は、通信の過程を損なう。
しかし,アバターとして表現される場合,音声とともに音声を仮想世界へ翻訳することは,特殊なモーションキャプチャハードウェアを使わずに困難である。
本稿では,音声から直接ジェスチャを生成する新しいデータ駆動手法を提案する。
提案手法は,音声とジェスチャの因果関係ではなく,その相関をモデル化するgans(generative adversarial neural network)の応用に基づいている。
このアプローチは、非言語コミュニケーションと音声の相関関係に関する神経科学的な知見を近似する。
モデルが話者固有の相関を学習する3次元ポーズ形式において,音声と対応するジェスチャからなる大規模データセットを作成する。
チューリングテストに触発されたユーザスタディにおいて,提案手法を評価する。
本研究では,仮想キャラクタ上で生成されたジェスチャーをアニメーション化する。
ユーザが生成したジェスチャーと記録したジェスチャーを区別できないことがわかった。
また,合成したジェスチャを,任意の発話に関連しているか否かを識別することができる。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。
音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-17T18:46:25Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation
of Facial Gestures in Dyadic Settings [11.741529272872219]
より自然な対面インタラクションを可能にするために、会話エージェントは、彼らの振る舞いをインターロケータに適応させる必要がある。
既存のジェスチャ生成システムの多くは、非言語的振る舞いを合成する際に、インターロカタからのマルチモーダルキューを使用しない。
本稿では,対話における顔のジェスチャーを対話的に合成する確率的手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T14:11:51Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。