論文の概要: Latent-Domain Predictive Neural Speech Coding
- arxiv url: http://arxiv.org/abs/2207.08363v2
- Date: Thu, 25 May 2023 12:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-27 00:05:01.743118
- Title: Latent-Domain Predictive Neural Speech Coding
- Title(参考訳): 潜在ドメイン予測型ニューラル音声符号化
- Authors: Xue Jiang, Xiulian Peng, Huaying Xue, Yuan Zhang, Yan Lu
- Abstract要約: 本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
- 参考スコア(独自算出の注目度): 22.65761249591267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio/speech coding has recently demonstrated its capability to
deliver high quality at much lower bitrates than traditional methods. However,
existing neural audio/speech codecs employ either acoustic features or learned
blind features with a convolutional neural network for encoding, by which there
are still temporal redundancies within encoded features. This paper introduces
latent-domain predictive coding into the VQ-VAE framework to fully remove such
redundancies and proposes the TF-Codec for low-latency neural speech coding in
an end-to-end manner. Specifically, the extracted features are encoded
conditioned on a prediction from past quantized latent frames so that temporal
correlations are further removed. Moreover, we introduce a learnable
compression on the time-frequency input to adaptively adjust the attention paid
to main frequencies and details at different bitrates. A differentiable vector
quantization scheme based on distance-to-soft mapping and Gumbel-Softmax is
proposed to better model the latent distributions with rate constraint.
Subjective results on multilingual speech datasets show that, with low latency,
the proposed TF-Codec at 1 kbps achieves significantly better quality than Opus
at 9 kbps, and TF-Codec at 3 kbps outperforms both EVS at 9.6 kbps and Opus at
12 kbps. Numerous studies are conducted to demonstrate the effectiveness of
these techniques.
- Abstract(参考訳): neural audio/speech codingは、従来の方法よりもずっと低いビットレートで高品質を提供する能力を示している。
しかし、既存のニューラルオーディオ/音声コーデックは、符号化のための畳み込みニューラルネットワークを備えた音響的特徴または学習的ブラインド特徴のいずれかを用いており、符号化された特徴の中にはまだ時間的冗長性がある。
本稿では,VQ-VAEフレームワークに潜時領域予測符号を導入し,その冗長性を完全に除去し,低遅延音声符号化のためのTF-Codecを提案する。
具体的には、過去の量子化潜在フレームからの予測に基づいて抽出された特徴を符号化し、時間相関をさらに除去する。
さらに、時間周波数入力に学習可能な圧縮を導入し、異なるビットレートで主周波数や詳細に対する注意を適応的に調整する。
距離-ソフトマッピングとGumbel-Softmaxに基づく微分可能ベクトル量子化法を提案し,遅延分布を速度制約でモデル化する。
多言語音声データセットにおける主観的な結果から,提案するtf-codecは1kbpsで9kbpsで,tf-codecは3kbpsで2つのevを9.6kbpsで,opusは12kbpsでそれぞれ上回った。
これらの技術の有効性を示すために多くの研究がなされている。
関連論文リスト
- PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders [6.375882733058943]
本稿では,特徴認識型プロンプトエンコーダを用いた新しいエンドツーエンドニューラルスピーチであるPromptCodecを提案する。
提案したPromptCodecは、あらゆる異なる条件下で、最先端のニューラルスピーチモデルより一貫して優れています。
論文 参考訳(メタデータ) (2024-04-03T13:00:08Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Cross-Scale Vector Quantization for Scalable Neural Speech Coding [22.65761249591267]
ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。
このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
論文 参考訳(メタデータ) (2022-07-07T03:23:25Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based
Approach [4.02517560480215]
従来の低ビットレート音声符号化方式は、8kHzでのみ狭帯域音声を扱う。
本稿では,メル周波数ケプストラム係数(MFCC)のベクトル量子化(VQ)による新しい手法を提案する。
これは、最先端の古典的なMELPegressiveと比較して、低ビットレートで優れた音声品質を提供する。
論文 参考訳(メタデータ) (2021-02-04T14:37:16Z) - Enhancement Of Coded Speech Using a Mask-Based Post-Filter [9.324642081509754]
時間周波数領域におけるマスキングに依存したデータ駆動ポストフィルタを提案する。
完全に接続されたニューラルネットワーク(FCNN)、畳み込みエンコーダデコーダ(CED)ネットワーク、長い短期記憶(LSTM)ネットワークは、時間周波数ビン当たりの実数値マスクを推定するために不必要である。
論文 参考訳(メタデータ) (2020-10-12T09:48:09Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。