論文の概要: A Comparison of Discrete Latent Variable Models for Speech
Representation Learning
- arxiv url: http://arxiv.org/abs/2010.14230v1
- Date: Sat, 24 Oct 2020 01:22:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:24:55.207097
- Title: A Comparison of Discrete Latent Variable Models for Speech
Representation Learning
- Title(参考訳): 音声表現学習のための離散潜在変数モデルの比較
- Authors: Henry Zhou, Alexei Baevski and Michael Auli
- Abstract要約: 本稿では,入力信号の予測や自動符号化に基づく2つのアプローチの比較を行う。
結果,vq-wav2vecによる将来の時間ステップ予測により,性能が向上することが示された。
- 参考スコア(独自算出の注目度): 46.52258734975676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural latent variable models enable the discovery of interesting structure
in speech audio data. This paper presents a comparison of two different
approaches which are broadly based on predicting future time-steps or
auto-encoding the input signal. Our study compares the representations learned
by vq-vae and vq-wav2vec in terms of sub-word unit discovery and phoneme
recognition performance. Results show that future time-step prediction with
vq-wav2vec achieves better performance. The best system achieves an error rate
of 13.22 on the ZeroSpeech 2019 ABX phoneme discrimination challenge
- Abstract(参考訳): ニューラル潜在変数モデルにより、音声データに興味深い構造が発見できる。
本稿では,将来の時間ステップ予測や入力信号の自動エンコードに基づく2つのアプローチの比較を行う。
本研究では, vq-vae と vq-wav2vec が学習した表現を, 単語単位発見と音素認識性能の観点から比較した。
結果,vq-wav2vecによる将来の時間ステップ予測により,性能が向上した。
最高のシステムは、ZeroSpeech 2019 ABX音素識別チャレンジで13.22のエラー率を達成する
関連論文リスト
- Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - DelightfulTTS: The Microsoft Speech Synthesis System for Blizzard
Challenge 2021 [31.750875486806184]
本稿では、Microsoftのエンドツーエンドニューラルテキスト音声合成システム(TTS: DelightfulTTS for Blizzard Challenge 2021)について述べる。
この課題の目的は、テキストから自然かつ高品質な音声を合成することであり、我々はこの目標に2つの視点でアプローチする。
論文 参考訳(メタデータ) (2021-10-25T02:47:59Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。