論文の概要: Intelligible Lip-to-Speech Synthesis with Speech Units
- arxiv url: http://arxiv.org/abs/2305.19603v1
- Date: Wed, 31 May 2023 07:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 17:58:24.095959
- Title: Intelligible Lip-to-Speech Synthesis with Speech Units
- Title(参考訳): 音声単位を用いた可知音声合成
- Authors: Jeongsoo Choi, Minsu Kim, Yong Man Ro
- Abstract要約: サイレントな唇運動ビデオから理解不能な音声を合成するための新しいL2Sフレームワークを提案する。
本稿では,音声単位を参照して,ぼやけやうるさいメル・スペクトログラムからでも明瞭な波形を生成できるマルチインプット・ボコーダを提案する。
- 参考スコア(独自算出の注目度): 32.65865343643458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel Lip-to-Speech synthesis (L2S) framework,
for synthesizing intelligible speech from a silent lip movement video.
Specifically, to complement the insufficient supervisory signal of the previous
L2S model, we propose to use quantized self-supervised speech representations,
named speech units, as an additional prediction target for the L2S model.
Therefore, the proposed L2S model is trained to generate multiple targets,
mel-spectrogram and speech units. As the speech units are discrete while
mel-spectrogram is continuous, the proposed multi-target L2S model can be
trained with strong content supervision, without using text-labeled data.
Moreover, to accurately convert the synthesized mel-spectrogram into a
waveform, we introduce a multi-input vocoder that can generate a clear waveform
even from blurry and noisy mel-spectrogram by referring to the speech units.
Extensive experimental results confirm the effectiveness of the proposed method
in L2S.
- Abstract(参考訳): 本稿では,無声唇運動ビデオから理解可能な音声を合成するl2s(l2-speech synthesis)フレームワークを提案する。
具体的には,従来のL2Sモデルの過小評価信号を補うために,L2Sモデルの新たな予測ターゲットとして,名前付き音声単位を用いた量子化された自己教師付き音声表現を提案する。
そこで提案したL2Sモデルは,複数の目標,メルスペクトル,音声単位を生成するために訓練される。
メルスペクトログラムが連続する間、音声単位は離散的であるため、提案する多目的l2sモデルは、テキストラベルデータを用いることなく、強いコンテンツ監督によって訓練することができる。
さらに,合成したメルスペクトルを波形に変換するために,音声単位を参照して,ぼやけやうるさいメルスペクトルからでも明瞭な波形を生成するマルチ入力ボコーダを導入する。
L2Sにおける提案手法の有効性を実験的に検証した。
関連論文リスト
- Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations [13.995231731152462]
本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
論文 参考訳(メタデータ) (2023-07-03T09:13:57Z) - Lip-to-Speech Synthesis in the Wild with Multi-task Learning [32.65865343643458]
野生環境においても入力された唇の動きから正しい内容で音声を再構成できる強力なLip2Speech法を開発した。
音響特徴再構成損失の単語表現不足を補うために,マルチモーダル・インスペクション(テキストと音声)を用いてモデルを指導するマルチタスク学習を設計する。
論文 参考訳(メタデータ) (2023-02-17T12:31:26Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。