論文の概要: Predictive Neural Speech Coding
- arxiv url: http://arxiv.org/abs/2207.08363v1
- Date: Mon, 18 Jul 2022 03:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 19:08:50.823638
- Title: Predictive Neural Speech Coding
- Title(参考訳): 予測型ニューラル音声符号化
- Authors: Xue Jiang, Xiulian Peng, Huaying Xue, Yuan Zhang, Yan Lu
- Abstract要約: 本稿では、VQ-VAEフレームワークに潜在ドメイン予測符号を導入し、そのような冗長性を完全に除去する。
時間周波数入力に学習可能な圧縮を導入し、主周波数に対する注意を適応的に調整する。
音声データセットの主観的な結果は、40msのレイテンシで、1kbpsのTF-Codecが9kbpsよりはるかに優れた品質が得られることを示している。
- 参考スコア(独自算出の注目度): 22.65761249591267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio/speech coding has shown its capability to deliver a high quality
at much lower bitrates than traditional methods recently. However, existing
neural audio/speech codecs employ either acoustic features or learned blind
features with a convolutional neural network for encoding, by which there are
still temporal redundancies inside encoded features. This paper introduces
latent-domain predictive coding into the VQ-VAE framework to fully remove such
redundancies and proposes the TF-Codec for low-latency neural speech coding in
an end-to-end way. Specifically, the extracted features are encoded conditioned
on a prediction from past quantized latent frames so that temporal correlations
are further removed. What's more, we introduce a learnable compression on the
time-frequency input to adaptively adjust the attention paid on main
frequencies and details at different bitrates. A differentiable vector
quantization scheme based on distance-to-soft mapping and Gumbel-Softmax is
proposed to better model the latent distributions with rate constraint.
Subjective results on multilingual speech datasets show that with a latency of
40ms, the proposed TF-Codec at 1kbps can achieve a much better quality than
Opus 9kbps and TF-Codec at 3kbps outperforms both EVS 9.6kbps and Opus 12kbps.
Numerous studies are conducted to show the effectiveness of these techniques.
- Abstract(参考訳): neural audio/speech codingは、従来の方法よりもずっと低いビットレートで高品質を提供する能力を示している。
しかし、既存のニューラルオーディオ/音声コーデックは、音響的特徴または学習盲目的特徴のいずれかを用いており、符号化された特徴の中に時間的冗長性がある畳み込みニューラルネットワークを使用している。
本稿では,VQ-VAEフレームワークに潜時領域予測符号を導入し,そのような冗長性を完全に除去し,低遅延音声符号化のためのTF-Codecをエンドツーエンドに提案する。
具体的には、過去の量子化潜在フレームからの予測に基づいて抽出された特徴を符号化し、時間相関をさらに除去する。
さらに、時間周波数入力に学習可能な圧縮を導入し、主周波数と詳細を異なるビットレートで適応的に調整する。
距離-ソフトマッピングとGumbel-Softmaxに基づく微分可能ベクトル量子化法を提案し,遅延分布を速度制約でモデル化する。
多言語音声データセットにおける主観的な結果は、40msのレイテンシで1kbpsのtf-codecがopus 9kbps、tf-codecが3kbpsのevs 9.6kbpsとopus 12kbpsを上回っていることを示している。
これらの手法の有効性を示すために多くの研究が行われている。
関連論文リスト
- Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding [24.472393096460774]
本稿では,推論中の速度と品質のトレードオフを,追加のトレーニングを必要とせずに柔軟に行うことができる拡張推論手法を提案する。
私たちの中核となる考え方は、複数の予測ヘッドを使用して、ARモジュールの推論ステップ毎に複数のトークンを予測することです。
実験では,各トークンの予測に要する時間は,ベースラインモデルと比較して4~5に短縮された。
論文 参考訳(メタデータ) (2024-10-17T17:55:26Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Cross-Scale Vector Quantization for Scalable Neural Speech Coding [22.65761249591267]
ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。
このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
論文 参考訳(メタデータ) (2022-07-07T03:23:25Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based
Approach [4.02517560480215]
従来の低ビットレート音声符号化方式は、8kHzでのみ狭帯域音声を扱う。
本稿では,メル周波数ケプストラム係数(MFCC)のベクトル量子化(VQ)による新しい手法を提案する。
これは、最先端の古典的なMELPegressiveと比較して、低ビットレートで優れた音声品質を提供する。
論文 参考訳(メタデータ) (2021-02-04T14:37:16Z) - Enhancement Of Coded Speech Using a Mask-Based Post-Filter [9.324642081509754]
時間周波数領域におけるマスキングに依存したデータ駆動ポストフィルタを提案する。
完全に接続されたニューラルネットワーク(FCNN)、畳み込みエンコーダデコーダ(CED)ネットワーク、長い短期記憶(LSTM)ネットワークは、時間周波数ビン当たりの実数値マスクを推定するために不必要である。
論文 参考訳(メタデータ) (2020-10-12T09:48:09Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。