論文の概要: RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations
- arxiv url: http://arxiv.org/abs/2307.01233v1
- Date: Mon, 3 Jul 2023 09:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 19:36:06.449183
- Title: RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations
- Title(参考訳): RobustL2S:自己教師付き表現を利用した話者特異的唇音声合成
- Authors: Neha Sahipjohn, Neil Shah, Vishal Tambrahalli, Vineet Gandhi
- Abstract要約: 本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
- 参考スコア(独自算出の注目度): 13.995231731152462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant progress has been made in speaker dependent Lip-to-Speech
synthesis, which aims to generate speech from silent videos of talking faces.
Current state-of-the-art approaches primarily employ non-autoregressive
sequence-to-sequence architectures to directly predict mel-spectrograms or
audio waveforms from lip representations. We hypothesize that the direct
mel-prediction hampers training/model efficiency due to the entanglement of
speech content with ambient information and speaker characteristics. To this
end, we propose RobustL2S, a modularized framework for Lip-to-Speech synthesis.
First, a non-autoregressive sequence-to-sequence model maps self-supervised
visual features to a representation of disentangled speech content. A vocoder
then converts the speech features into raw waveforms. Extensive evaluations
confirm the effectiveness of our setup, achieving state-of-the-art performance
on the unconstrained Lip2Wav dataset and the constrained GRID and TCD-TIMIT
datasets. Speech samples from RobustL2S can be found at
https://neha-sherin.github.io/RobustL2S/
- Abstract(参考訳): 話者依存型Lip-to-Speech合成において,話し言葉の無声ビデオから音声を生成することが重要な進歩である。
現在の最先端のアプローチでは、主に非自己回帰シーケンスツーシーケンスアーキテクチャを使用して、唇表現からメルスペクトログラムやオーディオ波形を直接予測している。
本研究は,環境情報と話者特性を有する音声コンテンツの絡み合いによるトレーニング/モデル効率の低下を想定した。
そこで我々は,Lip-to-Speech合成のためのモジュール化フレームワークRobostL2Sを提案する。
まず,非自己回帰列列列モデルを用いて,教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは音声の特徴を生の波形に変換する。
大規模評価により,制約のないLip2Wavデータセットと制約付きGRIDおよびTCD-TIMITデータセットの最先端性能が得られた。
RobustL2Sの音声サンプルはhttps://neha-sherin.github.io/RobustL2S/にある。
関連論文リスト
- PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and
Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-13T01:36:55Z) - Intelligible Lip-to-Speech Synthesis with Speech Units [32.65865343643458]
サイレントな唇運動ビデオから理解不能な音声を合成するための新しいL2Sフレームワークを提案する。
本稿では,音声単位を参照して,ぼやけやうるさいメル・スペクトログラムからでも明瞭な波形を生成できるマルチインプット・ボコーダを提案する。
論文 参考訳(メタデータ) (2023-05-31T07:17:32Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。