Fugu-MT 論文翻訳(概要): Ultra-Low-Bitrate Speech Coding with Pretrained Transformers

論文の概要: Ultra-Low-Bitrate Speech Coding with Pretrained Transformers

arxiv url: http://arxiv.org/abs/2207.02262v1
Date: Tue, 5 Jul 2022 18:52:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-08 07:03:20.596798
Title: Ultra-Low-Bitrate Speech Coding with Pretrained Transformers
Title（参考訳）: プリトレーニングトランスを用いた超低ビット音声符号化
Authors: Ali Siahkoohi and Michael Chinen and Tom Denton and W. Bastiaan Kleijn and Jan Skoglund
Abstract要約: 音声符号化は、最小歪みの低帯域ネットワーク上での音声の伝送を容易にする。インダクティブバイアスによる入力信号の長距離依存性を活用できる事前学習型トランスフォーマーを用いる。
参考スコア（独自算出の注目度）: 28.400364949575103
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech coding facilitates the transmission of speech over low-bandwidth networks with minimal distortion. Neural-network based speech codecs have recently demonstrated significant improvements in quality over traditional approaches. While this new generation of codecs is capable of synthesizing high-fidelity speech, their use of recurrent or convolutional layers often restricts their effective receptive fields, which prevents them from compressing speech efficiently. We propose to further reduce the bitrate of neural speech codecs through the use of pretrained Transformers, capable of exploiting long-range dependencies in the input signal due to their inductive bias. As such, we use a pretrained Transformer in tandem with a convolutional encoder, which is trained end-to-end with a quantizer and a generative adversarial net decoder. Our numerical experiments show that supplementing the convolutional encoder of a neural speech codec with Transformer speech embeddings yields a speech codec with a bitrate of $600\,\mathrm{bps}$ that outperforms the original neural speech codec in synthesized speech quality when trained at the same bitrate. Subjective human evaluations suggest that the quality of the resulting codec is comparable or better than that of conventional codecs operating at three to four times the rate.
Abstract（参考訳）: 音声符号化は低帯域幅ネットワーク上での音声伝送を最小限の歪みで容易に行う。ニューラルネットワークベースの音声コーデックは、最近、従来のアプローチよりも品質が大幅に向上している。この新世代のコーデックは高忠実度音声を合成できるが、再帰層や畳み込み層を用いると、効果的な受容場が制限され、効率よく音声を圧縮できない。本稿では,入力信号の帰納バイアスによる長距離依存性を活用可能な事前学習トランスフォーマを用いて,ニューラル音声コーデックのビットレートをさらに削減することを提案する。そこで我々は,タンデムで事前学習したトランスフォーマーと畳み込みエンコーダを,量子化器と生成逆数ネットデコーダでエンドツーエンドに訓練する。数値実験により,トランスフォーマー音声埋め込みによるニューラルネットワークコーデックの畳み込みエンコーダの補足により,同じビットレートで学習した場合に合成音声品質において,元のニューラルネットワークコーデックよりも優れるビットレート600\,\mathrm{bps}$の音声コーデックが得られることを示した。主観的な人間の評価では、結果のコーデックの品質は従来のコーデックの3倍から4倍の速さで動作している。

関連論文リスト

SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。 HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-25T02:44:30Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec [14.7377193484733]
LSCodecは低話者分離能力と低話者分離能力を持つ離散音声である。再構成実験により、LSCodecは、単一のコードブックだけで、ベースラインよりも語彙サイズが小さい、優れた知性およびオーディオ品質を示す。
論文参考訳（メタデータ） (2024-10-21T08:23:31Z)
CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。話者の類似度は低く、プロソディの自然度は低い。本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文参考訳（メタデータ） (2024-06-12T15:42:21Z)
FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec [55.95078490630001]
本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声ツールキット FunCodec について述べる。 FunCodecは、SoundStreamやEncodecといった最新のニューラルスピーチモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。 FunCodecとともに、事前訓練されたモデルも提供される。
論文参考訳（メタデータ） (2023-09-14T03:18:24Z)
RepCodec: A Speech Representation Codec for Speech Tokenization [21.60885344868044]
RepCodecは意味的音声トークン化のための新しい表現である。 RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-31T23:26:10Z)
Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文参考訳（メタデータ） (2022-07-18T03:18:08Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文参考訳（メタデータ） (2021-12-21T19:14:44Z)
A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文参考訳（メタデータ） (2021-08-09T14:03:07Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)
Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文参考訳（メタデータ） (2020-03-25T09:04:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。