論文の概要: Audio-visual video-to-speech synthesis with synthesized input audio
- arxiv url: http://arxiv.org/abs/2307.16584v1
- Date: Mon, 31 Jul 2023 11:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:52:47.769774
- Title: Audio-visual video-to-speech synthesis with synthesized input audio
- Title(参考訳): 合成入力音声を用いた視聴覚映像音声合成
- Authors: Triantafyllos Kefalas and Yannis Panagakis and Maja Pantic
- Abstract要約: トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
- 参考スコア(独自算出の注目度): 64.86087257004883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-speech synthesis involves reconstructing the speech signal of a
speaker from a silent video. The implicit assumption of this task is that the
sound signal is either missing or contains a high amount of noise/corruption
such that it is not useful for processing. Previous works in the literature
either use video inputs only or employ both video and audio inputs during
training, and discard the input audio pathway during inference. In this work we
investigate the effect of using video and audio inputs for video-to-speech
synthesis during both training and inference. In particular, we use pre-trained
video-to-speech models to synthesize the missing speech signals and then train
an audio-visual-to-speech synthesis model, using both the silent video and the
synthesized speech as inputs, to predict the final reconstructed speech. Our
experiments demonstrate that this approach is successful with both raw
waveforms and mel spectrograms as target outputs.
- Abstract(参考訳): ビデオ音声合成では、サイレントビデオから話者の音声信号を再構成する。
このタスクの暗黙の仮定は、音声信号が欠落しているか、あるいは処理に役立たないような高いノイズ/腐敗を含んでいるかである。
以前の文学作品では、ビデオ入力のみを使用するか、トレーニング中にビデオと音声の両方の入力を用いるか、推論中に入力音声経路を破棄する。
本研究では,トレーニングと推論の両方において,ビデオと音声の入力が音声合成に与える影響について検討する。
特に,事前学習した映像音声合成モデルを用いて音声信号の合成を行い,無声音声と合成音声の両方を入力として音声音声合成モデルを訓練し,最終的な再構成音声を予測する。
実験では,この手法が生波形とメルスペクトルの両方を目標出力として成功していることを示す。
関連論文リスト
- DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Vocoder-Based Speech Synthesis from Silent Videos [28.94460283719776]
深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。
システムは生のビデオフレームから音響特徴へのマッピング関数を学習し、ボコーダ合成アルゴリズムを用いて音声を再構成する。
論文 参考訳(メタデータ) (2020-04-06T10:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。