論文の概要: Understanding the Predictability of Gesture Parameters from Speech and
their Perceptual Importance
- arxiv url: http://arxiv.org/abs/2010.00995v1
- Date: Fri, 2 Oct 2020 13:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:24:28.797985
- Title: Understanding the Predictability of Gesture Parameters from Speech and
their Perceptual Importance
- Title(参考訳): 音声からのジェスチャーパラメータの予測可能性とその知覚的重要性
- Authors: Ylva Ferstl, Michael Neff, Rachel McDonnell
- Abstract要約: 本研究では,音声がジェスチャー動作の異なる側面とどのように関係するかを検討する。
我々は、音声からジェスチャーパラメータを予測するために、複数の繰り返しネットワークを訓練する。
本研究では,音声に適した動きを知覚するためのジェスチャーパラメータの重要性を評価するための知覚的研究を設計する。
- 参考スコア(独自算出の注目度): 3.5773108446345026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gesture behavior is a natural part of human conversation. Much work has
focused on removing the need for tedious hand-animation to create embodied
conversational agents by designing speech-driven gesture generators. However,
these generators often work in a black-box manner, assuming a general
relationship between input speech and output motion. As their success remains
limited, we investigate in more detail how speech may relate to different
aspects of gesture motion. We determine a number of parameters characterizing
gesture, such as speed and gesture size, and explore their relationship to the
speech signal in a two-fold manner. First, we train multiple recurrent networks
to predict the gesture parameters from speech to understand how well gesture
attributes can be modeled from speech alone. We find that gesture parameters
can be partially predicted from speech, and some parameters, such as path
length, being predicted more accurately than others, like velocity. Second, we
design a perceptual study to assess the importance of each gesture parameter
for producing motion that people perceive as appropriate for the speech.
Results show that a degradation in any parameter was viewed negatively, but
some changes, such as hand shape, are more impactful than others. A video
summarization can be found at https://youtu.be/aw6-_5kmLjY.
- Abstract(参考訳): ジェスチャー行動は人間の会話の自然な部分である。
多くの研究は、音声駆動ジェスチャジェネレータを設計することで、対話エージェントを具体化するための退屈なハンドアニメーションの必要性を取り除くことに重点を置いている。
しかし、これらの生成器はしばしばブラックボックス方式で動作し、入力音声と出力動作の一般的な関係を仮定する。
彼らの成功は限られているため、音声がジェスチャーの動きのさまざまな側面とどのように関連しているのか、より詳細に調査する。
速度やジェスチャサイズなどのジェスチャを特徴付けるパラメータを多数決定し,その音声信号との関係を2次元的に検討する。
まず,複数の繰り返しネットワークを訓練し,音声からジェスチャパラメータを予測し,音声のみからジェスチャ属性をモデル化できることを理解する。
その結果,ジェスチャパラメータは音声から部分的に予測でき,経路長などのいくつかのパラメータは速度など他のパラメータよりも正確に予測できることがわかった。
第2に,音声に適した動きを知覚する上で,各ジェスチャーパラメータの重要性を評価するための知覚的研究を設計する。
その結果,任意のパラメータの劣化は否定的に見られたが,手形などのいくつかの変化は他のパラメータよりも影響が大きいことがわかった。
ビデオ要約はhttps://youtu.be/aw6-_5kmLjYで見ることができる。
関連論文リスト
- ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Multimodal analysis of the predictability of hand-gesture properties [10.332200713176768]
身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。
本稿では,現代ディープラーニングを用いた音声テキストおよび/または音声から,どのジェスチャー特性を予測できるかを検討する。
論文 参考訳(メタデータ) (2021-08-12T14:16:00Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。