論文の概要: Interactive Conversational Head Generation
- arxiv url: http://arxiv.org/abs/2307.02090v1
- Date: Wed, 5 Jul 2023 08:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:45:28.816999
- Title: Interactive Conversational Head Generation
- Title(参考訳): 対話型対話型ヘッドジェネレーション
- Authors: Mohan Zhou, Yalong Bai, Wei Zhang, Ting Yao, Tiejun Zhao
- Abstract要約: 対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
- 参考スコア(独自算出の注目度): 68.76774230274076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new conversation head generation benchmark for synthesizing
behaviors of a single interlocutor in a face-to-face conversation. The
capability to automatically synthesize interlocutors which can participate in
long and multi-turn conversations is vital and offer benefits for various
applications, including digital humans, virtual agents, and social robots.
While existing research primarily focuses on talking head generation (one-way
interaction), hindering the ability to create a digital human for conversation
(two-way) interaction due to the absence of listening and interaction parts. In
this work, we construct two datasets to address this issue, ``ViCo'' for
independent talking and listening head generation tasks at the sentence level,
and ``ViCo-X'', for synthesizing interlocutors in multi-turn conversational
scenarios. Based on ViCo and ViCo-X, we define three novel tasks targeting the
interaction modeling during the face-to-face conversation: 1) responsive
listening head generation making listeners respond actively to the speaker with
non-verbal signals, 2) expressive talking head generation guiding speakers to
be aware of listeners' behaviors, and 3) conversational head generation to
integrate the talking/listening ability in one interlocutor. Along with the
datasets, we also propose corresponding baseline solutions to the three
aforementioned tasks. Experimental results show that our baseline method could
generate responsive and vivid agents that can collaborate with real person to
fulfil the whole conversation. Project page: https://vico.solutions/.
- Abstract(参考訳): 対面会話における1つの対話者の振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間および複数ターンの会話に参加可能な対話を自動的に合成する能力は不可欠であり、デジタル人間、仮想エージェント、ソーシャルロボットなど様々なアプリケーションにとってメリットがある。
既存の研究は、主に会話のヘッドジェネレーション(一方的相互作用)に焦点を当てているが、聞き取りと対話の欠如により、会話のためのデジタル人間(双方向)の創造を妨げている。
本研究では,この課題に対処するための2つのデータセットを構築し,文レベルでの対話および聴取ヘッド生成タスクのための ``ViCo'' と,マルチターン対話シナリオにおけるインターロケータの合成のための ``ViCo-X'' を構築した。
ViCoとViCo-Xに基づいて、対面会話におけるインタラクションモデリングを目的とした3つの新しいタスクを定義する。
1)レスポンシブなリスニングヘッド生成により、リスナーは非言語信号で話者に積極的に反応する。
2)話し手の行動に気付くよう話者を誘導する表現的頭部生成,および
3)対話型ヘッドジェネレーションは,会話/聞き取り機能を一つの対話者に統合する。
データセットに加えて,上記3つのタスクに対応するベースラインソリューションも提案する。
実験結果から,本手法は現実人と協調して会話全体を補完する応答的,鮮明なエージェントを生成できることが示された。
プロジェクトページ: https://vico.solutions/
関連論文リスト
- Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication [17.294279444027563]
本稿では,人間のコミュニケーションに焦点をあてた革新的なタスクを紹介し,話者と聴取者の両方に対して3次元の全体的人間の動きを生成することを目的とする。
話者とリスナーのリアルタイム相互影響を考察し,新しい連鎖型トランスフォーマーに基づく自己回帰モデルを提案する。
提案手法は,2つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-03-28T14:47:32Z) - Enhancing Personality Recognition in Dialogue by Data Augmentation and
Heterogeneous Conversational Graph Networks [30.33718960981521]
パーソナリティ認識は、ユーザ適応応答をカスタマイズするロボットの能力を高めるのに有用である。
この課題の1つは、既存の対話コーパスにおける話者の限られた数である。
論文 参考訳(メタデータ) (2024-01-11T12:27:33Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - Intelligent Conversational Android ERICA Applied to Attentive Listening
and Job Interview [41.789773897391605]
我々はインテリジェントな会話型android ericaを開発した。
ERICAには,注意深い聞き取り,就職面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。
40人の高齢者が会話を分解することなく5~7分間の会話を行ったことが評価されている。
論文 参考訳(メタデータ) (2021-05-02T06:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。