論文の概要: DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation
- arxiv url: http://arxiv.org/abs/2203.07931v2
- Date: Sat, 12 Aug 2023 14:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 23:35:31.289402
- Title: DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation
- Title(参考訳): DialogueNeRF: リアルアバター対対面ビデオ生成に向けて
- Authors: Yichao Yan, Zanwei Zhou, Zi Wang, Jingnan Gao, Xiaokang Yang
- Abstract要約: 対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.84137342837465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversation is an essential component of virtual avatar activities in the
metaverse. With the development of natural language processing, textual and
vocal conversation generation has achieved a significant breakthrough. However,
face-to-face conversations account for the vast majority of daily
conversations, while most existing methods focused on single-person talking
head generation. In this work, we take a step further and consider generating
realistic face-to-face conversation videos. Conversation generation is more
challenging than single-person talking head generation, since it not only
requires generating photo-realistic individual talking heads but also demands
the listener to respond to the speaker. In this paper, we propose a novel
unified framework based on neural radiance field (NeRF) to address this task.
Specifically, we model both the speaker and listener with a NeRF framework,
with different conditions to control individual expressions. The speaker is
driven by the audio signal, while the response of the listener depends on both
visual and acoustic information. In this way, face-to-face conversation videos
are generated between human avatars, with all the interlocutors modeled within
the same network. Moreover, to facilitate future research on this task, we
collect a new human conversation dataset containing 34 clips of videos.
Quantitative and qualitative experiments evaluate our method in different
aspects, e.g., image quality, pose sequence trend, and naturalness of the
rendering videos. Experimental results demonstrate that the avatars in the
resulting videos are able to perform a realistic conversation, and maintain
individual styles. All the code, data, and models will be made publicly
available.
- Abstract(参考訳): 会話はメタバースにおける仮想アバター活動の重要な構成要素である。
自然言語処理の発展に伴い、テキストと音声による会話生成は画期的な進歩を遂げた。
しかし、対面会話は日常会話の大多数を占めており、既存のほとんどの方法は単独の会話ヘッド生成に焦点を当てている。
本研究では,さらに一歩進めて,現実的な対面会話ビデオの生成を検討する。
会話生成は、写真リアリスティックな個人会話ヘッドを生成するだけでなく、リスナーにスピーカーへの応答を要求するため、単独の話しヘッド生成よりも難しい。
本稿では,ニューラルラジアンス場(NeRF)に基づく新しい統合フレームワークを提案し,その課題に対処する。
具体的には、話者とリスナーの両方をNeRFフレームワークでモデル化し、異なる条件で個々の表現を制御する。
スピーカは音声信号によって駆動され、リスナーの応答は視覚情報と音響情報の両方に依存する。
このようにして、人のアバター間で対面会話ビデオが生成され、すべての対話者が同じネットワーク内でモデル化される。
さらに,この課題の今後の研究を促進するために,34クリップのビデオを含む人間の会話データセットを新たに収集する。
定量的・定性的実験により, 映像品質, ポーズ系列傾向, 映像の自然性など, 様々な側面から評価した。
実験の結果,映像中のアバターは現実的な会話を行い,個々のスタイルを維持できることがわかった。
すべてのコード、データ、モデルが公開される予定だ。
関連論文リスト
- Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。