論文の概要: Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models
- arxiv url: http://arxiv.org/abs/2306.16003v2
- Date: Thu, 18 Jan 2024 08:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 20:34:18.082655
- Title: Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models
- Title(参考訳): 音声駆動モデルの再プログラムによる音声音声合成
- Authors: Jeongsoo Choi, Minsu Kim, Se Jin Park, Yong Man Ro
- Abstract要約: 本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
- 参考スコア(独自算出の注目度): 64.14812728562596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a method for reprogramming pre-trained audio-driven
talking face synthesis models to operate in a text-driven manner. Consequently,
we can easily generate face videos that articulate the provided textual
sentences, eliminating the necessity of recording speech for each inference, as
required in the audio-driven model. To this end, we propose to embed the input
text into the learned audio latent space of the pre-trained audio-driven model,
while preserving the face synthesis capability of the original pre-trained
model. Specifically, we devise a Text-to-Audio Embedding Module (TAEM) which
maps a given text input into the audio latent space by modeling pronunciation
and duration characteristics. Furthermore, to consider the speaker
characteristics in audio while using text inputs, TAEM is designed to accept a
visual speaker embedding. The visual speaker embedding is derived from a single
target face image and enables improved mapping of input text to the learned
audio latent space by incorporating the speaker characteristics inherent in the
audio. The main advantages of the proposed framework are that 1) it can be
applied to diverse audio-driven talking face synthesis models and 2) we can
generate talking face videos with either text inputs or audio inputs with high
flexibility.
- Abstract(参考訳): 本稿では,事前学習した音声駆動対話顔合成モデルを再プログラムし,テキスト駆動で動作させる手法を提案する。
これにより、音声駆動モデルで必要となる各推論のための音声記録の必要性を解消し、提供されたテキスト文を記述した顔ビデオを容易に生成できる。
そこで本研究では,事前学習された音声駆動モデルの学習音声潜在空間に入力テキストを埋め込むとともに,元の事前学習されたモデルの顔合成機能を保持することを提案する。
具体的には,与えられたテキスト入力を発音と持続時間特性をモデル化して音声潜在空間にマッピングするtext-to-audio embedded module(taem)を考案する。
さらに、テキスト入力を用いて音声の話者特性を考察するため、TAEMは視覚的話者埋め込みを受け入れるように設計されている。
視覚話者埋め込みは、単一の対象の顔画像から導出され、音声に固有の話者特性を組み込むことにより、入力テキストの学習音声潜在空間へのマッピングを改善することができる。
提案されたフレームワークの主な利点は、
1)多種多様な音声駆動対話顔合成モデルに適用できる。
2)テキスト入力と音声入力のどちらでも,高い柔軟性で会話面ビデオを生成することができる。
関連論文リスト
- Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech
Synthesis and Editing [31.666920933058144]
本稿では,テキスト入力と音響テキストアライメントによるマスク付き音響信号の再構成を行うアライメント・アウェア・アウェア・アコースティック・テキスト・プレトレーニング(A$3$T)を提案する。
実験では、A$3$Tは、音声編集におけるSOTAモデルよりも優れており、外部話者検証モデルなしでは、マルチスピーカ音声合成を改善する。
論文 参考訳(メタデータ) (2022-03-18T01:36:25Z) - Audiovisual Speech Synthesis using Tacotron2 [14.206988023567828]
3次元顔モデルのための2つの音声視覚音声合成システムを提案し,比較する。
AVTacotron2は、Tacotron2アーキテクチャに基づくエンドツーエンドの音声合成システムである。
第2の音声視覚音声合成システムはモジュールであり、従来のタコトロン2を用いて音声をテキストから合成する。
論文 参考訳(メタデータ) (2020-08-03T02:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。