論文の概要: FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit
for Neural Speech Codec
- arxiv url: http://arxiv.org/abs/2309.07405v1
- Date: Thu, 14 Sep 2023 03:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:18:28.844592
- Title: FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit
for Neural Speech Codec
- Title(参考訳): funcodec: ニューラルネットワークコーデックのための基本で再現性があり、統合可能なオープンソースツールキット
- Authors: Zhihao Du, Shiliang Zhang, Kai Hu, Siqi Zheng
- Abstract要約: 本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声ツールキット FunCodec について述べる。
FunCodecは、SoundStreamやEncodecといった最新のニューラルスピーチモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。
FunCodecとともに、事前訓練されたモデルも提供される。
- 参考スコア(独自算出の注目度): 55.95078490630001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents FunCodec, a fundamental neural speech codec toolkit,
which is an extension of the open-source speech processing toolkit FunASR.
FunCodec provides reproducible training recipes and inference scripts for the
latest neural speech codec models, such as SoundStream and Encodec. Thanks to
the unified design with FunASR, FunCodec can be easily integrated into
downstream tasks, such as speech recognition. Along with FunCodec, pre-trained
models are also provided, which can be used for academic or generalized
purposes. Based on the toolkit, we further propose the frequency-domain codec
models, FreqCodec, which can achieve comparable speech quality with much lower
computation and parameter complexity. Experimental results show that, under the
same compression ratio, FunCodec can achieve better reconstruction quality
compared with other toolkits and released models. We also demonstrate that the
pre-trained models are suitable for downstream tasks, including automatic
speech recognition and personalized text-to-speech synthesis. This toolkit is
publicly available at https://github.com/alibaba-damo-academy/FunCodec.
- Abstract(参考訳): 本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声コーデックツールキット FunCodec について述べる。
FunCodecは、SoundStreamやEncodecといった最新のニューラル音声コーデックモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。
FunASRとの統一設計により、FunCodecは音声認識などの下流タスクに容易に統合できる。
funcodecに加えて、事前学習されたモデルも提供されており、学術目的や一般化目的に使用できる。
このツールキットに基づき,周波数領域コーデックモデルであるfreqcodecを提案する。
実験結果から,FunCodecは圧縮比が同じであれば,他のツールキットやリリースモデルと比較して,再構築品質が向上することが示された。
また,事前学習したモデルが,自動音声認識やパーソナライズされた音声合成など,下流タスクに適していることを示す。
このツールキットはhttps://github.com/alibaba-damo-academy/funcodecで公開されている。
関連論文リスト
- RepCodec: A Speech Representation Codec for Speech Tokenization [24.28618574786887]
RepCodecは意味的音声トークン化のための新しい表現である。
RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-31T23:26:10Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Ultra-Low-Bitrate Speech Coding with Pretrained Transformers [28.400364949575103]
音声符号化は、最小歪みの低帯域ネットワーク上での音声の伝送を容易にする。
インダクティブバイアスによる入力信号の長距離依存性を活用できる事前学習型トランスフォーマーを用いる。
論文 参考訳(メタデータ) (2022-07-05T18:52:11Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Enhancing into the codec: Noise Robust Speech Coding with
Vector-Quantized Autoencoders [21.74276379834421]
We developed compressor-enhancer encoders and accompanieding decoders based on VQ-VAE autoencoders with WaveRNN decoders。
コンプレッサー・エンハンサーモデルは, クリーン音声のみを訓練したコンプレッサーモデルよりも, クリーン音声入力において優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-12T16:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。