論文の概要: Responsive Listening Head Generation: A Benchmark Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2112.13548v1
- Date: Mon, 27 Dec 2021 07:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:57:04.909931
- Title: Responsive Listening Head Generation: A Benchmark Dataset and Baseline
- Title(参考訳): 応答型リスニングヘッド生成:ベンチマークデータセットとベースライン
- Authors: Mohan Zhou, Yalong Bai, Wei Zhang, Tiejun Zhao, Tao Mei
- Abstract要約: 本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
- 参考スコア(独自算出の注目度): 58.168958284290156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Responsive listening during face-to-face conversations is a critical element
of social interaction and is well established in psychological research.
Through non-verbal signals response to the speakers' words, intonations, or
behaviors in real-time, listeners show how they are engaged in dialogue. In
this work, we build the Responsive Listener Dataset (RLD), a conversation video
corpus collected from the public resources featuring 67 speakers, 76 listeners
with three different attitudes. We define the responsive listening head
generation task as the synthesis of a non-verbal head with motions and
expressions reacting to the multiple inputs, including the audio and visual
signal of the speaker. Unlike speech-driven gesture or talking head generation,
we introduce more modals in this task, hoping to benefit several research
fields, including human-to-human interaction, video-to-video translation,
cross-modal understanding, and generation. Furthermore, we release an attitude
conditioned listening head generation baseline. Project page:
\url{https://project.mhzhou.com/rld}.
- Abstract(参考訳): 対面会話中のレスポンシブリスニングは、社会的相互作用の重要な要素であり、心理的研究においてよく確立されている。
話者の言葉、イントネーション、行動に応答する非言語的信号によって、リスナーはどのように対話を行うかを示す。
本研究では,67人の話者と76人のリスナーによる3つの異なる態度の会話ビデオコーパスであるResponsive Listener Dataset (RLD)を構築した。
我々は、応答型リスニングヘッド生成タスクを、話者の音声や視覚信号を含む複数の入力に応答する動きや表現を持つ非言語ヘッドの合成として定義する。
音声駆動ジェスチャや音声ヘッド生成と異なり,人間間インタラクション,ビデオ間翻訳,クロスモーダル理解,生成など,いくつかの研究分野のメリットを期待して,この課題により多くのモーダルを導入する。
さらに,姿勢条件付きリスニングヘッド生成ベースラインをリリースする。
プロジェクトページ: \url{https://project.mhzhou.com/rld}。
関連論文リスト
- Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - MFR-Net: Multi-faceted Responsive Listening Head Generation via
Denoising Diffusion Model [14.220727407255966]
応答型リスニングヘッド生成は,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。
我々は,textbfMulti-textbfFaceted textbfResponsive Listening Head Generation Network (MFR-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-31T11:10:28Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Hierarchical Semantic Perceptual Listener Head Video Generation: A
High-performance Pipeline [6.9329709955764045]
ViCo@2023 ACM Multimedia 2023 Conferenceにおける会話型ヘッドジェネレーションチャレンジ
本稿は、ACM Multimedia 2023 conferenceにおけるViCo@2023 Conversational Head Generation Challengeのテクニカルレポートである。
論文 参考訳(メタデータ) (2023-07-19T08:16:34Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Intelligent Conversational Android ERICA Applied to Attentive Listening
and Job Interview [41.789773897391605]
我々はインテリジェントな会話型android ericaを開発した。
ERICAには,注意深い聞き取り,就職面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。
40人の高齢者が会話を分解することなく5~7分間の会話を行ったことが評価されている。
論文 参考訳(メタデータ) (2021-05-02T06:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。