論文の概要: DialogueNeRF: Towards Realistic Avatar Face-to-face Conversation Video
Generation
- arxiv url: http://arxiv.org/abs/2203.07931v1
- Date: Tue, 15 Mar 2022 14:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 21:30:19.340887
- Title: DialogueNeRF: Towards Realistic Avatar Face-to-face Conversation Video
Generation
- Title(参考訳): DialogueNeRF: リアルアバター対面ビデオ生成に向けて
- Authors: Zanwei Zhou, Zi Wang, Shunyu Yao, Yichao Yan, Chen Yang, Guangtao
Zhai, Junchi Yan, Xiaokang Yang
- Abstract要約: 対面会話は毎日の会話の大部分を占める。
本研究では,現実的な対面会話プロセスを実現することを目的とした新しいタスクを提案する。
すべてのコード、データ、モデルは公開されます。
- 参考スコア(独自算出の注目度): 134.81331880803708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversation is an essential component of virtual avatar activities in the
metaverse. With the development of natural language processing, textual and
vocal conversation generation has achieved a significant breakthrough.
Face-to-face conversations account for the vast majority of daily
conversations. However, this task has not acquired enough attention. In this
paper, we propose a novel task that aims to generate a realistic human avatar
face-to-face conversation process and present a new dataset to explore this
target. To tackle this novel task, we propose a new framework that utilizes a
series of conversation signals, e.g. audio, head pose, and expression, to
synthesize face-to-face conversation videos between human avatars, with all the
interlocutors modeled within the same network. Our method is evaluated by
quantitative and qualitative experiments in different aspects, e.g. image
quality, pose sequence trend, and naturalness of the rendering videos. All the
code, data, and models will be made publicly available.
- Abstract(参考訳): 会話はメタバースにおける仮想アバター活動の重要な構成要素である。
自然言語処理の発展に伴い、テキストと音声による会話生成は画期的な進歩を遂げた。
対面会話は毎日の会話の大部分を占める。
しかし、この作業には十分な注意が払われていない。
本稿では,現実的な人間の対面会話プロセスを生成することを目的とした新しいタスクを提案し,このターゲットを探索するための新しいデータセットを提案する。
この課題に取り組むために,音声,頭部ポーズ,表情といった一連の会話信号を用いて,同一ネットワーク内でモデル化されたすべての対話者を用いて,人間のアバター間の対面会話ビデオを合成する新しい枠組みを提案する。
本手法は, 映像品質, ポーズ系列傾向, および映像の自然性など, 異なる側面の定量的, 質的実験により評価される。
すべてのコード、データ、モデルが公開される予定だ。
関連論文リスト
- Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。