論文の概要: Ultra-Low-Bitrate Speech Coding with Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2207.02262v1
- Date: Tue, 5 Jul 2022 18:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 07:03:20.596798
- Title: Ultra-Low-Bitrate Speech Coding with Pretrained Transformers
- Title(参考訳): プリトレーニングトランスを用いた超低ビット音声符号化
- Authors: Ali Siahkoohi and Michael Chinen and Tom Denton and W. Bastiaan Kleijn
and Jan Skoglund
- Abstract要約: 音声符号化は、最小歪みの低帯域ネットワーク上での音声の伝送を容易にする。
インダクティブバイアスによる入力信号の長距離依存性を活用できる事前学習型トランスフォーマーを用いる。
- 参考スコア(独自算出の注目度): 28.400364949575103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech coding facilitates the transmission of speech over low-bandwidth
networks with minimal distortion. Neural-network based speech codecs have
recently demonstrated significant improvements in quality over traditional
approaches. While this new generation of codecs is capable of synthesizing
high-fidelity speech, their use of recurrent or convolutional layers often
restricts their effective receptive fields, which prevents them from
compressing speech efficiently. We propose to further reduce the bitrate of
neural speech codecs through the use of pretrained Transformers, capable of
exploiting long-range dependencies in the input signal due to their inductive
bias. As such, we use a pretrained Transformer in tandem with a convolutional
encoder, which is trained end-to-end with a quantizer and a generative
adversarial net decoder. Our numerical experiments show that supplementing the
convolutional encoder of a neural speech codec with Transformer speech
embeddings yields a speech codec with a bitrate of $600\,\mathrm{bps}$ that
outperforms the original neural speech codec in synthesized speech quality when
trained at the same bitrate. Subjective human evaluations suggest that the
quality of the resulting codec is comparable or better than that of
conventional codecs operating at three to four times the rate.
- Abstract(参考訳): 音声符号化は低帯域幅ネットワーク上での音声伝送を最小限の歪みで容易に行う。
ニューラルネットワークベースの音声コーデックは、最近、従来のアプローチよりも品質が大幅に向上している。
この新世代のコーデックは高忠実度音声を合成できるが、再帰層や畳み込み層を用いると、効果的な受容場が制限され、効率よく音声を圧縮できない。
本稿では,入力信号の帰納バイアスによる長距離依存性を活用可能な事前学習トランスフォーマを用いて,ニューラル音声コーデックのビットレートをさらに削減することを提案する。
そこで我々は,タンデムで事前学習したトランスフォーマーと畳み込みエンコーダを,量子化器と生成逆数ネットデコーダでエンドツーエンドに訓練する。
数値実験により,トランスフォーマー音声埋め込みによるニューラルネットワークコーデックの畳み込みエンコーダの補足により,同じビットレートで学習した場合に合成音声品質において,元のニューラルネットワークコーデックよりも優れるビットレート600\,\mathrm{bps}$の音声コーデックが得られることを示した。
主観的な人間の評価では、結果のコーデックの品質は従来のコーデックの3倍から4倍の速さで動作している。
関連論文リスト
- FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec [14.7377193484733]
LSCodecは低話者分離能力と低話者分離能力を持つ離散音声である。
再構成実験により、LSCodecは、単一のコードブックだけで、ベースラインよりも語彙サイズが小さい、優れた知性およびオーディオ品質を示す。
論文 参考訳(メタデータ) (2024-10-21T08:23:31Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit
for Neural Speech Codec [55.95078490630001]
本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声ツールキット FunCodec について述べる。
FunCodecは、SoundStreamやEncodecといった最新のニューラルスピーチモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。
FunCodecとともに、事前訓練されたモデルも提供される。
論文 参考訳(メタデータ) (2023-09-14T03:18:24Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。