論文の概要: Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis
- arxiv url: http://arxiv.org/abs/2306.03504v2
- Date: Wed, 2 Aug 2023 09:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 17:22:10.906950
- Title: Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis
- Title(参考訳): ada-tta: 適応型高品質テキスト対話アバター合成に向けて
- Authors: Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin,
Zejun Ma, Zhou Zhao
- Abstract要約: 入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
- 参考スコア(独自算出の注目度): 66.43223397997559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in a novel task, namely low-resource text-to-talking
avatar. Given only a few-minute-long talking person video with the audio track
as the training data and arbitrary texts as the driving input, we aim to
synthesize high-quality talking portrait videos corresponding to the input
text. This task has broad application prospects in the digital human industry
but has not been technically achieved yet due to two challenges: (1) It is
challenging to mimic the timbre from out-of-domain audio for a traditional
multi-speaker Text-to-Speech system. (2) It is hard to render high-fidelity and
lip-synchronized talking avatars with limited training data. In this paper, we
introduce Adaptive Text-to-Talking Avatar (Ada-TTA), which (1) designs a
generic zero-shot multi-speaker TTS model that well disentangles the text
content, timbre, and prosody; and (2) embraces recent advances in neural
rendering to achieve realistic audio-driven talking face video generation. With
these designs, our method overcomes the aforementioned two challenges and
achieves to generate identity-preserving speech and realistic talking person
video. Experiments demonstrate that our method could synthesize realistic,
identity-preserving, and audio-visual synchronized talking avatar videos.
- Abstract(参考訳): 私たちは新しいタスク、すなわち低リソースのテキスト対トークアバターに興味を持っています。
音声トラックをトレーニングデータとし、任意のテキストを駆動入力とする数分間の会話人ビデオと、入力テキストに対応する高品質な音声肖像画を合成することを目的としている。
この課題は,デジタルヒューマン産業において広く応用されるが,(1)従来のマルチスピーカーテキスト音声合成システムにおいて,ドメイン外オーディオの音色を模倣することは困難である。
2) 訓練データによる高忠実度・リップ同期音声アバターのレンダリングは困難である。
本稿では,(1)テキストの内容,音色,韻律をうまく切り離す汎用的なゼロショットマルチスピーカTSモデルを設計したAdaptive Text-to-Talking Avatar(Ada-TTA)について紹介する。
これらの設計により, 上記の2つの課題を克服し, 身元保存音声と実話映像を生成する。
実験により,本手法が現実的,アイデンティティ保存,音声-視覚同期音声アバター映像を合成できることが実証された。
関連論文リスト
- Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AudioVisual Speech Synthesis: A brief literature review [4.148192541851448]
本稿では,音声音声合成の課題について考察する。これは,テキストを入力とするアニメーション音声ヘッドの生成の問題である。
ttsでは、テキストを中間音響表現にマッピングするために使用されるモデルを示す。
対話型アニメーション問題に対しては,人間の顔や擬人化図形を創り出すかに基づいてアプローチを分類する。
論文 参考訳(メタデータ) (2021-02-18T19:13:48Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。