論文の概要: Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild
- arxiv url: http://arxiv.org/abs/2209.00642v1
- Date: Thu, 1 Sep 2022 17:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:32:14.169821
- Title: Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild
- Title(参考訳): 野生における任意の話者に対する口唇音声合成
- Authors: Sindhu B Hegde, K R Prajwal, Rudrabha Mukhopadhyay, Vinay P
Namboodiri, C. V. Jawahar
- Abstract要約: 本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
- 参考スコア(独自算出の注目度): 44.92322575562816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we address the problem of generating speech from silent lip
videos for any speaker in the wild. In stark contrast to previous works, our
method (i) is not restricted to a fixed number of speakers, (ii) does not
explicitly impose constraints on the domain or the vocabulary and (iii) deals
with videos that are recorded in the wild as opposed to within laboratory
settings. The task presents a host of challenges, with the key one being that
many features of the desired target speech, like voice, pitch and linguistic
content, cannot be entirely inferred from the silent face video. In order to
handle these stochastic variations, we propose a new VAE-GAN architecture that
learns to associate the lip and speech sequences amidst the variations. With
the help of multiple powerful discriminators that guide the training process,
our generator learns to synthesize speech sequences in any voice for the lip
movements of any person. Extensive experiments on multiple datasets show that
we outperform all baselines by a large margin. Further, our network can be
fine-tuned on videos of specific identities to achieve a performance comparable
to single-speaker models that are trained on $4\times$ more data. We conduct
numerous ablation studies to analyze the effect of different modules of our
architecture. We also provide a demo video that demonstrates several
qualitative results along with the code and trained models on our website:
\url{http://cvit.iiit.ac.in/research/projects/cvit-projects/lip-to-speech-synthesis}}
- Abstract(参考訳): そこで本研究では,無声唇映像から自然界のどの話者に対しても音声を生成する問題に対処する。
従来の作品とは対照的に,我々の方法
(i)一定数の話者に限定されない。
(ii)ドメイン又は語彙に明示的に制約を課していないこと。
(iii)実験室での撮影とは対照的に野生で撮影された映像を扱っている。
この課題は、音声、ピッチ、言語内容など、目的とする音声の多くの特徴が、サイレントな顔ビデオから完全に推測できないという、多くの課題を提示している。
これらの確率的変動に対処するために,この変動の中で唇と音声列を関連付けることを学習する新しいVAE-GANアーキテクチャを提案する。
訓練過程を指導する複数の強力な判別器の助けを借りて,任意の音声中の音声シーケンスを合成し,任意の人の唇の動きを推定する。
複数のデータセットに対する大規模な実験は、すべてのベースラインを大きなマージンで上回ることを示した。
さらに、当社のネットワークは、特定のidの動画に微調整することで、$4\times$以上のデータでトレーニングされたシングルスピーカーモデルに匹敵するパフォーマンスを実現できます。
我々は,アーキテクチャの異なるモジュールの効果を分析するために,多数のアブレーション研究を行っている。
また、コードとトレーニングされたモデルとともに、いくつかの定性的な結果を示すデモビデオもWebサイトで公開しています。
関連論文リスト
- Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Let There Be Sound: Reconstructing High Quality Speech from Silent
Videos [34.306490673301184]
この研究の目的は、唇の動きだけで高品質な音声を再構築することである。
音声合成システムにおける重要な課題は、一対多のマッピングである。
生成品質を大幅に向上させる新しい音声合成システムを提案する。
論文 参考訳(メタデータ) (2023-08-29T12:30:53Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Visual Speech Enhancement Without A Real Visual Stream [37.88869937166955]
現在の最先端の手法はオーディオストリームのみを使用しており、その性能は幅広い現実世界のノイズで制限されている。
唇の動きを付加的な手がかりとして用いる最近の作品は、"オーディオオンリー"な方法で発話の質を向上させます。
音声駆動唇合成における最近の進歩を利用して,音声強調のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2020-12-20T06:02:12Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。