論文の概要: MFR-Net: Multi-faceted Responsive Listening Head Generation via
Denoising Diffusion Model
- arxiv url: http://arxiv.org/abs/2308.16635v1
- Date: Thu, 31 Aug 2023 11:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:43:35.637772
- Title: MFR-Net: Multi-faceted Responsive Listening Head Generation via
Denoising Diffusion Model
- Title(参考訳): MFR-Net: denoising Diffusion Modelによる多面応答型リスニングヘッド生成
- Authors: Jin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong
Han
- Abstract要約: 応答型リスニングヘッド生成は,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。
我々は,textbfMulti-textbfFaceted textbfResponsive Listening Head Generation Network (MFR-Net)を提案する。
- 参考スコア(独自算出の注目度): 14.220727407255966
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face-to-face communication is a common scenario including roles of speakers
and listeners. Most existing research methods focus on producing speaker
videos, while the generation of listener heads remains largely overlooked.
Responsive listening head generation is an important task that aims to model
face-to-face communication scenarios by generating a listener head video given
a speaker video and a listener head image. An ideal generated responsive
listening video should respond to the speaker with attitude or viewpoint
expressing while maintaining diversity in interaction patterns and accuracy in
listener identity information. To achieve this goal, we propose the
\textbf{M}ulti-\textbf{F}aceted \textbf{R}esponsive Listening Head Generation
Network (MFR-Net). Specifically, MFR-Net employs the probabilistic denoising
diffusion model to predict diverse head pose and expression features. In order
to perform multi-faceted response to the speaker video, while maintaining
accurate listener identity preservation, we design the Feature Aggregation
Module to boost listener identity features and fuse them with other
speaker-related features. Finally, a renderer finetuned with identity
consistency loss produces the final listening head videos. Our extensive
experiments demonstrate that MFR-Net not only achieves multi-faceted responses
in diversity and speaker identity information but also in attitude and
viewpoint expression.
- Abstract(参考訳): 対面コミュニケーションは、話者やリスナーの役割を含む一般的なシナリオである。
既存の研究手法の多くは、話者ビデオの制作に重点を置いているが、リスナーヘッドの生成はほとんど見過ごされている。
応答型リスナーヘッド生成は,話者映像とリスナーヘッド画像が与えられたリスナーヘッド映像を生成し,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。
理想的な応答型リスニングビデオは、リスナーのアイデンティティ情報において、対話パターンの多様性と精度を維持しつつ、姿勢や視点を表現した話者に応答するべきである。
この目的を達成するため,我々は,textbf{m}ulti-\textbf{f}aceted \textbf{r}esponsive listening head generation network (mfr-net)を提案する。
具体的には、MFR-Netは様々な頭部のポーズと表情の特徴を予測するために確率的偏差拡散モデルを用いている。
話者ビデオに対する多面応答を行うため,リスナ識別の精度を維持しつつ,リスナ識別機能を強化し,他の話者関連機能と融合する機能集約モジュールを設計した。
最後に、アイデンティティの整合性が失われるレンダラーが最終的なリスニングヘッドビデオを生成する。
MFR-Netは,多様性や話者識別情報の多面的応答だけでなく,姿勢や視点表現も達成できることを示す。
関連論文リスト
- DiffListener: Discrete Diffusion Model for Listener Generation [2.80888070977859]
リスナーヘッド生成タスクは、話者のマルチモーダルキューに基づいて、自然な非言語的リスナー応答を生成することを目的としている。
非自己回帰型リスナーヘッド生成のための離散拡散に基づくDiffListenerを提案する。
我々のモデルは、話者の顔情報、音声、テキストを入力とし、さらに表情や動きの時間的ダイナミクスを表現するために、顔差情報を統合する。
論文 参考訳(メタデータ) (2025-02-05T07:57:15Z) - EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - Leveraging WaveNet for Dynamic Listening Head Modeling from Speech [11.016004057765185]
対面会話中のリスナーからの対話的コミュニケーションフィードバックをシミュレートすることを目的としたリスナー顔応答の作成。
提案手法は,聴取者のフィードバックの微妙なニュアンスを捉え,個々の聴取者のアイデンティティを確実に保持することに焦点を当てる。
論文 参考訳(メタデータ) (2024-09-08T13:19:22Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Hierarchical Semantic Perceptual Listener Head Video Generation: A
High-performance Pipeline [6.9329709955764045]
ViCo@2023 ACM Multimedia 2023 Conferenceにおける会話型ヘッドジェネレーションチャレンジ
本稿は、ACM Multimedia 2023 conferenceにおけるViCo@2023 Conversational Head Generation Challengeのテクニカルレポートである。
論文 参考訳(メタデータ) (2023-07-19T08:16:34Z) - Emotional Talking Head Generation based on Memory-Sharing and
Attention-Augmented Networks [21.864200803678003]
メモリ共有感情特徴抽出器と,U-netに基づくアテンション拡張トランスレータで構成される対話型ヘッド生成モデルを提案する。
MSEFは、より正確な感情的な顔のランドマークを推定するために、音声から暗黙の感情的な補助的特徴を抽出することができる。
AATUは、推定されたランドマークと写真リアルなビデオフレームの間のトランスレータとして機能する。
論文 参考訳(メタデータ) (2023-06-06T11:31:29Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。