Fugu-MT 論文翻訳(概要): Vector-quantized neural networks for acoustic unit discovery in the ZeroSpeech 2020 challenge

論文の概要: Vector-quantized neural networks for acoustic unit discovery in the ZeroSpeech 2020 challenge

arxiv url: http://arxiv.org/abs/2005.09409v2
Date: Wed, 19 Aug 2020 12:41:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 14:26:56.072591
Title: Vector-quantized neural networks for acoustic unit discovery in the ZeroSpeech 2020 challenge
Title（参考訳）: ZeroSpeech 2020チャレンジにおける音響ユニット検出のためのベクトル量子ニューラルネットワーク
Authors: Benjamin van Niekerk, Leanne Nortje, Herman Kamper
Abstract要約: 音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
参考スコア（独自算出の注目度）: 26.114011076658237
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we explore vector quantization for acoustic unit discovery. Leveraging unlabelled data, we aim to learn discrete representations of speech that separate phonetic content from speaker-specific details. We propose two neural models to tackle this challenge - both use vector quantization to map continuous features to a finite set of codes. The first model is a type of vector-quantized variational autoencoder (VQ-VAE). The VQ-VAE encodes speech into a sequence of discrete units before reconstructing the audio waveform. Our second model combines vector quantization with contrastive predictive coding (VQ-CPC). The idea is to learn a representation of speech by predicting future acoustic units. We evaluate the models on English and Indonesian data for the ZeroSpeech 2020 challenge. In ABX phone discrimination tests, both models outperform all submissions to the 2019 and 2020 challenges, with a relative improvement of more than 30%. The models also perform competitively on a downstream voice conversion task. Of the two, VQ-CPC performs slightly better in general and is simpler and faster to train. Finally, probing experiments show that vector quantization is an effective bottleneck, forcing the models to discard speaker information.
Abstract（参考訳）: 本稿では,音響単位発見のためのベクトル量子化について検討する。本研究の目的は,音声内容と話者固有の詳細を分離した音声の離散表現を学習することである。この課題に対処する2つのニューラルモデルを提案する。どちらもベクトル量子化を用いて連続的な特徴を有限個のコードにマッピングする。最初のモデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。 vq-vaeは音声波形を再構成する前に音声を離散単位列に符号化する。第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる。将来の音響単位を予測することによって音声表現を学習する。我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータのモデルを評価する。 ABX電話の差別テストでは、どちらのモデルも2019年と2020年の課題への応募よりも優れており、相対的な改善は30%以上である。モデルは下流の音声変換タスクでも競合的に機能する。 2つのうち、VQ-CPCは概して若干性能が良く、訓練も簡単で高速である。最後に、探索実験によりベクトル量子化が効果的なボトルネックとなり、モデルに話者情報を捨てさせることが示されている。

関連論文リスト

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。 WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文参考訳（メタデータ） (2024-08-29T13:43:36Z)
Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。 VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文参考訳（メタデータ） (2024-02-26T06:01:38Z)
Self-supervised Learning with Random-projection Quantizer for Speech Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文参考訳（メタデータ） (2022-02-03T21:29:04Z)
A Comparison of Discrete Latent Variable Models for Speech Representation Learning [46.52258734975676]
本稿では,入力信号の予測や自動符号化に基づく2つのアプローチの比較を行う。結果,vq-wav2vecによる将来の時間ステップ予測により,性能が向上することが示された。
論文参考訳（メタデータ） (2020-10-24T01:22:14Z)
Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。 A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文参考訳（メタデータ） (2020-10-23T08:34:52Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文参考訳（メタデータ） (2020-03-17T22:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。