Fugu-MT 論文翻訳(概要): Predictive Neural Speech Coding

論文の概要: Predictive Neural Speech Coding

arxiv url: http://arxiv.org/abs/2207.08363v1
Date: Mon, 18 Jul 2022 03:18:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-19 19:08:50.823638
Title: Predictive Neural Speech Coding
Title（参考訳）: 予測型ニューラル音声符号化
Authors: Xue Jiang, Xiulian Peng, Huaying Xue, Yuan Zhang, Yan Lu
Abstract要約: 本稿では、VQ-VAEフレームワークに潜在ドメイン予測符号を導入し、そのような冗長性を完全に除去する。時間周波数入力に学習可能な圧縮を導入し、主周波数に対する注意を適応的に調整する。音声データセットの主観的な結果は、40msのレイテンシで、1kbpsのTF-Codecが9kbpsよりはるかに優れた品質が得られることを示している。
参考スコア（独自算出の注目度）: 22.65761249591267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural audio/speech coding has shown its capability to deliver a high quality at much lower bitrates than traditional methods recently. However, existing neural audio/speech codecs employ either acoustic features or learned blind features with a convolutional neural network for encoding, by which there are still temporal redundancies inside encoded features. This paper introduces latent-domain predictive coding into the VQ-VAE framework to fully remove such redundancies and proposes the TF-Codec for low-latency neural speech coding in an end-to-end way. Specifically, the extracted features are encoded conditioned on a prediction from past quantized latent frames so that temporal correlations are further removed. What's more, we introduce a learnable compression on the time-frequency input to adaptively adjust the attention paid on main frequencies and details at different bitrates. A differentiable vector quantization scheme based on distance-to-soft mapping and Gumbel-Softmax is proposed to better model the latent distributions with rate constraint. Subjective results on multilingual speech datasets show that with a latency of 40ms, the proposed TF-Codec at 1kbps can achieve a much better quality than Opus 9kbps and TF-Codec at 3kbps outperforms both EVS 9.6kbps and Opus 12kbps. Numerous studies are conducted to show the effectiveness of these techniques.
Abstract（参考訳）: neural audio/speech codingは、従来の方法よりもずっと低いビットレートで高品質を提供する能力を示している。しかし、既存のニューラルオーディオ/音声コーデックは、音響的特徴または学習盲目的特徴のいずれかを用いており、符号化された特徴の中に時間的冗長性がある畳み込みニューラルネットワークを使用している。本稿では,VQ-VAEフレームワークに潜時領域予測符号を導入し,そのような冗長性を完全に除去し,低遅延音声符号化のためのTF-Codecをエンドツーエンドに提案する。具体的には、過去の量子化潜在フレームからの予測に基づいて抽出された特徴を符号化し、時間相関をさらに除去する。さらに、時間周波数入力に学習可能な圧縮を導入し、主周波数と詳細を異なるビットレートで適応的に調整する。距離-ソフトマッピングとGumbel-Softmaxに基づく微分可能ベクトル量子化法を提案し,遅延分布を速度制約でモデル化する。多言語音声データセットにおける主観的な結果は、40msのレイテンシで1kbpsのtf-codecがopus 9kbps、tf-codecが3kbpsのevs 9.6kbpsとopus 12kbpsを上回っていることを示している。これらの手法の有効性を示すために多くの研究が行われている。

関連論文リスト

SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。 HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-25T02:44:30Z)
Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文参考訳（メタデータ） (2025-05-24T15:52:49Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding [24.472393096460774]
本稿では,推論中の速度と品質のトレードオフを,追加のトレーニングを必要とせずに柔軟に行うことができる拡張推論手法を提案する。私たちの中核となる考え方は、複数の予測ヘッドを使用して、ARモジュールの推論ステップ毎に複数のトークンを予測することです。実験では,各トークンの予測に要する時間は,ベースラインモデルと比較して4～5に短縮された。
論文参考訳（メタデータ） (2024-10-17T17:55:26Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2022-07-08T10:10:39Z)
Cross-Scale Vector Quantization for Scalable Neural Speech Coding [22.65761249591267]
ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
論文参考訳（メタデータ） (2022-07-07T03:23:25Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文参考訳（メタデータ） (2022-03-28T17:51:00Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)
Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based Approach [4.02517560480215]
従来の低ビットレート音声符号化方式は、8kHzでのみ狭帯域音声を扱う。本稿では,メル周波数ケプストラム係数(MFCC)のベクトル量子化(VQ)による新しい手法を提案する。これは、最先端の古典的なMELPegressiveと比較して、低ビットレートで優れた音声品質を提供する。
論文参考訳（メタデータ） (2021-02-04T14:37:16Z)
Enhancement Of Coded Speech Using a Mask-Based Post-Filter [9.324642081509754]
時間周波数領域におけるマスキングに依存したデータ駆動ポストフィルタを提案する。完全に接続されたニューラルネットワーク(FCNN)、畳み込みエンコーダデコーダ(CED)ネットワーク、長い短期記憶(LSTM)ネットワークは、時間周波数ビン当たりの実数値マスクを推定するために不必要である。
論文参考訳（メタデータ） (2020-10-12T09:48:09Z)
Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文参考訳（メタデータ） (2020-03-17T22:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。