論文の概要: Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based
Approach
- arxiv url: http://arxiv.org/abs/2102.02640v1
- Date: Thu, 4 Feb 2021 14:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 15:56:36.078544
- Title: Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based
Approach
- Title(参考訳): 低ビットレート広帯域音声符号化:深部生成モデルに基づくアプローチ
- Authors: Gang Min, Xiongwei Zhang, Xia Zou, Xiangyang Liu
- Abstract要約: 従来の低ビットレート音声符号化方式は、8kHzでのみ狭帯域音声を扱う。
本稿では,メル周波数ケプストラム係数(MFCC)のベクトル量子化(VQ)による新しい手法を提案する。
これは、最先端の古典的なMELPegressiveと比較して、低ビットレートで優れた音声品質を提供する。
- 参考スコア(独自算出の注目度): 4.02517560480215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional low bit-rate speech coding approach only handles narrowband
speech at 8kHz, which limits further improvements in speech quality. Motivated
by recent successful exploration of deep learning methods for image and speech
compression, this paper presents a new approach through vector quantization
(VQ) of mel-frequency cepstral coefficients (MFCCs) and using a deep generative
model called WaveGlow to provide efficient and high-quality speech coding. The
coding feature is sorely an 80-dimension MFCCs vector for 16kHz wideband
speech, then speech coding at the bit-rate throughout 1000-2000 bit/s could be
scalably implemented by applying different VQ schemes for MFCCs vector. This
new deep generative network based codec works fast as the WaveGlow model
abandons the sample-by-sample autoregressive mechanism. We evaluated this new
approach over the multi-speaker TIMIT corpus, and experimental results
demonstrate that it provides better speech quality compared with the
state-of-the-art classic MELPe codec at lower bit-rate.
- Abstract(参考訳): 従来の低ビットレート音声符号化アプローチは8khzでの狭帯域音声のみを扱うため、音声品質のさらなる改善は制限される。
本稿では,画像と音声圧縮のための深層学習手法の探索に成功し,MFCCのベクトル量子化(VQ)とWaveGlowと呼ばれる深層生成モデルを用いて効率的かつ高品質な音声符号化を行うことにより,新たなアプローチを提案する。
符号化機能は、16kHzの広帯域音声のための80次元のMFCCベクトルであり、1000-2000bit/sのビットレートでの音声符号化は、MFCCのベクトルに異なるVQスキームを適用することで、確実に実装できる。
この新しいディープジェネレーションネットワークベースのコーデックは、サンプルごとの自動回帰機構をWaveGlowモデルが放棄すると高速に動作します。
我々は,マルチスピーカ TIMIT コーパスに対するこの新しいアプローチを評価し,その実験結果から,従来の MELPe コーデックに比べて低ビットレートでの音声品質が向上することが実証された。
関連論文リスト
- LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec [14.7377193484733]
LSCodecは低話者分離能力と低話者分離能力を持つ離散音声である。
再構成実験により、LSCodecは、単一のコードブックだけで、ベースラインよりも語彙サイズが小さい、優れた知性およびオーディオ品質を示す。
論文 参考訳(メタデータ) (2024-10-21T08:23:31Z) - VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている
これらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。
本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:18:24Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Scalable and Efficient Neural Speech Coding [24.959825692325445]
本研究では,音声圧縮のためのスケーラブルかつ効率的なニューラル波形(NWC)を提案する。
提案するcnnオートエンコーダは、量子化と符号化を訓練可能なモジュールとして定義する。
他の自己回帰型デコーダベースのニューラルスピーチと比較すると、デコーダのアーキテクチャは大幅に小さい。
論文 参考訳(メタデータ) (2021-03-27T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。