論文の概要: Leveraging WaveNet for Dynamic Listening Head Modeling from Speech
- arxiv url: http://arxiv.org/abs/2409.05089v1
- Date: Sun, 8 Sep 2024 13:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:20:20.232775
- Title: Leveraging WaveNet for Dynamic Listening Head Modeling from Speech
- Title(参考訳): 音声からの動的聴取ヘッドモデリングのためのWaveNetの活用
- Authors: Minh-Duc Nguyen, Hyung-Jeong Yang, Seung-Won Kim, Ji-Eun Shin, Soo-Hyung Kim,
- Abstract要約: 対面会話中のリスナーからの対話的コミュニケーションフィードバックをシミュレートすることを目的としたリスナー顔応答の作成。
提案手法は,聴取者のフィードバックの微妙なニュアンスを捉え,個々の聴取者のアイデンティティを確実に保持することに焦点を当てる。
- 参考スコア(独自算出の注目度): 11.016004057765185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The creation of listener facial responses aims to simulate interactive communication feedback from a listener during a face-to-face conversation. Our goal is to generate believable videos of listeners' heads that respond authentically to a single speaker by a sequence-to-sequence model with an combination of WaveNet and Long short-term memory network. Our approach focuses on capturing the subtle nuances of listener feedback, ensuring the preservation of individual listener identity while expressing appropriate attitudes and viewpoints. Experiment results show that our method surpasses the baseline models on ViCo benchmark Dataset.
- Abstract(参考訳): 対面会話中のリスナーからの対話的コミュニケーションフィードバックをシミュレートすることを目的としたリスナー顔応答の作成。
我々のゴールは、WaveNetとLong短期記憶ネットワークを組み合わせたシーケンス・ツー・シーケンス・モデルにより、1つの話者に忠実に応答するリスナーの頭部を再生することである。
提案手法は,聴取者のフィードバックの微妙なニュアンスを捉え,適切な態度や視点を表現しながら,個々の聴取者のアイデンティティを確実に保持することに焦点を当てる。
実験の結果,本手法はViCoベンチマークデータセットのベースラインモデルを上回ることがわかった。
関連論文リスト
- CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation [9.741109135330262]
話者とリスナーの動的変換の相関をモデル化することにより,非言語対応型リスナーヘッドを合成することを目的とする。
ユーザフレンドリーなフレームワークであるCustomListenerを提案する。
論文 参考訳(メタデータ) (2024-03-01T04:31:56Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - MFR-Net: Multi-faceted Responsive Listening Head Generation via
Denoising Diffusion Model [14.220727407255966]
応答型リスニングヘッド生成は,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。
我々は,textbfMulti-textbfFaceted textbfResponsive Listening Head Generation Network (MFR-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-31T11:10:28Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Modeling Speaker-Listener Interaction for Backchannel Prediction [24.52345279975304]
バックチャネル理論は、会話の過程でリスナーの活発で継続的な役割を強調する。
話者音声から音響特徴を処理し,最小応答に基づくニューラルベース音響バックチャネル分類器を提案する。
SwitchboardとGECOデータセットの実験結果は、ほぼすべてのテストシナリオにおいて、話者またはリスナーの振る舞いの埋め込みが、モデルがより正確なバックチャネル予測を行うのに役立つことを示している。
論文 参考訳(メタデータ) (2023-04-10T09:22:06Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。