論文の概要: Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge
- arxiv url: http://arxiv.org/abs/2005.09409v2
- Date: Wed, 19 Aug 2020 12:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:26:56.072591
- Title: Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge
- Title(参考訳): ZeroSpeech 2020チャレンジにおける音響ユニット検出のためのベクトル量子ニューラルネットワーク
- Authors: Benjamin van Niekerk, Leanne Nortje, Herman Kamper
- Abstract要約: 音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
- 参考スコア(独自算出の注目度): 26.114011076658237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore vector quantization for acoustic unit discovery.
Leveraging unlabelled data, we aim to learn discrete representations of speech
that separate phonetic content from speaker-specific details. We propose two
neural models to tackle this challenge - both use vector quantization to map
continuous features to a finite set of codes. The first model is a type of
vector-quantized variational autoencoder (VQ-VAE). The VQ-VAE encodes speech
into a sequence of discrete units before reconstructing the audio waveform. Our
second model combines vector quantization with contrastive predictive coding
(VQ-CPC). The idea is to learn a representation of speech by predicting future
acoustic units. We evaluate the models on English and Indonesian data for the
ZeroSpeech 2020 challenge. In ABX phone discrimination tests, both models
outperform all submissions to the 2019 and 2020 challenges, with a relative
improvement of more than 30%. The models also perform competitively on a
downstream voice conversion task. Of the two, VQ-CPC performs slightly better
in general and is simpler and faster to train. Finally, probing experiments
show that vector quantization is an effective bottleneck, forcing the models to
discard speaker information.
- Abstract(参考訳): 本稿では,音響単位発見のためのベクトル量子化について検討する。
本研究の目的は,音声内容と話者固有の詳細を分離した音声の離散表現を学習することである。
この課題に対処する2つのニューラルモデルを提案する。どちらもベクトル量子化を用いて連続的な特徴を有限個のコードにマッピングする。
最初のモデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
vq-vaeは音声波形を再構成する前に音声を離散単位列に符号化する。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる。
将来の音響単位を予測することによって音声表現を学習する。
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータのモデルを評価する。
ABX電話の差別テストでは、どちらのモデルも2019年と2020年の課題への応募よりも優れており、相対的な改善は30%以上である。
モデルは下流の音声変換タスクでも競合的に機能する。
2つのうち、VQ-CPCは概して若干性能が良く、訓練も簡単で高速である。
最後に、探索実験によりベクトル量子化が効果的なボトルネックとなり、モデルに話者情報を捨てさせることが示されている。
関連論文リスト
- WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - A Comparison of Discrete Latent Variable Models for Speech
Representation Learning [46.52258734975676]
本稿では,入力信号の予測や自動符号化に基づく2つのアプローチの比較を行う。
結果,vq-wav2vecによる将来の時間ステップ予測により,性能が向上することが示された。
論文 参考訳(メタデータ) (2020-10-24T01:22:14Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。