論文の概要: Enhancing into the codec: Noise Robust Speech Coding with
Vector-Quantized Autoencoders
- arxiv url: http://arxiv.org/abs/2102.06610v1
- Date: Fri, 12 Feb 2021 16:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 14:43:22.869729
- Title: Enhancing into the codec: Noise Robust Speech Coding with
Vector-Quantized Autoencoders
- Title(参考訳): コーデックへのエンハンシング:ベクトル量子オートエンコーダによる雑音ロバスト音声符号化
- Authors: Jonah Casebeer, Vinjai Vale, Umut Isik, Jean-Marc Valin, Ritwik Giri,
Arvindh Krishnaswamy
- Abstract要約: We developed compressor-enhancer encoders and accompanieding decoders based on VQ-VAE autoencoders with WaveRNN decoders。
コンプレッサー・エンハンサーモデルは, クリーン音声のみを訓練したコンプレッサーモデルよりも, クリーン音声入力において優れた性能を示す。
- 参考スコア(独自算出の注目度): 21.74276379834421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio codecs based on discretized neural autoencoders have recently been
developed and shown to provide significantly higher compression levels for
comparable quality speech output. However, these models are tightly coupled
with speech content, and produce unintended outputs in noisy conditions. Based
on VQ-VAE autoencoders with WaveRNN decoders, we develop compressor-enhancer
encoders and accompanying decoders, and show that they operate well in noisy
conditions. We also observe that a compressor-enhancer model performs better on
clean speech inputs than a compressor model trained only on clean speech.
- Abstract(参考訳): 離散化ニューラルオートエンコーダに基づくオーディオコーデックが最近開発され、同等の品質の音声出力に対して、かなり高い圧縮レベルを提供することが示された。
しかし、これらのモデルは音声コンテンツと密結合しており、雑音下で意図しない出力を生成する。
WaveRNNデコーダを搭載したVQ-VAEオートエンコーダをベースに、コンプレッサーエンハンサーエンコーダと付属デコーダを開発し、ノイズの多い条件下での動作を示します。
また、コンプレッサーエンハンサーモデルは、クリーンな音声のみに訓練されたコンプレッサーモデルよりもクリーンな音声入力で優れた性能を発揮します。
関連論文リスト
- Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference [10.909997817643905]
提案する低フレームレート音声符号化(LFSC: Low Frame-rate Speech Codec)は, 有限スカラー量子化と大規模言語モデルによる対角訓練を利用して, 1.89kbps, 21.5fpsの高品質音声圧縮を実現するニューラルオーディオである。
本稿では,従来のモデルに匹敵する品質を向上しつつ,テキスト音声モデルの3倍高速な推定が可能であることを実証する。
論文 参考訳(メタデータ) (2024-09-18T16:39:10Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit
for Neural Speech Codec [55.95078490630001]
本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声ツールキット FunCodec について述べる。
FunCodecは、SoundStreamやEncodecといった最新のニューラルスピーチモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。
FunCodecとともに、事前訓練されたモデルも提供される。
論文 参考訳(メタデータ) (2023-09-14T03:18:24Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Ultra-Low-Bitrate Speech Coding with Pretrained Transformers [28.400364949575103]
音声符号化は、最小歪みの低帯域ネットワーク上での音声の伝送を容易にする。
インダクティブバイアスによる入力信号の長距離依存性を活用できる事前学習型トランスフォーマーを用いる。
論文 参考訳(メタデータ) (2022-07-05T18:52:11Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。