論文の概要: FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit
for Neural Speech Codec
- arxiv url: http://arxiv.org/abs/2309.07405v1
- Date: Thu, 14 Sep 2023 03:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:18:28.844592
- Title: FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit
for Neural Speech Codec
- Title(参考訳): funcodec: ニューラルネットワークコーデックのための基本で再現性があり、統合可能なオープンソースツールキット
- Authors: Zhihao Du, Shiliang Zhang, Kai Hu, Siqi Zheng
- Abstract要約: 本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声ツールキット FunCodec について述べる。
FunCodecは、SoundStreamやEncodecといった最新のニューラルスピーチモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。
FunCodecとともに、事前訓練されたモデルも提供される。
- 参考スコア(独自算出の注目度): 55.95078490630001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents FunCodec, a fundamental neural speech codec toolkit,
which is an extension of the open-source speech processing toolkit FunASR.
FunCodec provides reproducible training recipes and inference scripts for the
latest neural speech codec models, such as SoundStream and Encodec. Thanks to
the unified design with FunASR, FunCodec can be easily integrated into
downstream tasks, such as speech recognition. Along with FunCodec, pre-trained
models are also provided, which can be used for academic or generalized
purposes. Based on the toolkit, we further propose the frequency-domain codec
models, FreqCodec, which can achieve comparable speech quality with much lower
computation and parameter complexity. Experimental results show that, under the
same compression ratio, FunCodec can achieve better reconstruction quality
compared with other toolkits and released models. We also demonstrate that the
pre-trained models are suitable for downstream tasks, including automatic
speech recognition and personalized text-to-speech synthesis. This toolkit is
publicly available at https://github.com/alibaba-damo-academy/FunCodec.
- Abstract(参考訳): 本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声コーデックツールキット FunCodec について述べる。
FunCodecは、SoundStreamやEncodecといった最新のニューラル音声コーデックモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。
FunASRとの統一設計により、FunCodecは音声認識などの下流タスクに容易に統合できる。
funcodecに加えて、事前学習されたモデルも提供されており、学術目的や一般化目的に使用できる。
このツールキットに基づき,周波数領域コーデックモデルであるfreqcodecを提案する。
実験結果から,FunCodecは圧縮比が同じであれば,他のツールキットやリリースモデルと比較して,再構築品質が向上することが示された。
また,事前学習したモデルが,自動音声認識やパーソナライズされた音声合成など,下流タスクに適していることを示す。
このツールキットはhttps://github.com/alibaba-damo-academy/funcodecで公開されている。
関連論文リスト
- LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec [14.7377193484733]
LSCodecは低話者分離能力と低話者分離能力を持つ離散音声である。
再構成実験により、LSCodecは、単一のコードブックだけで、ベースラインよりも語彙サイズが小さい、優れた知性およびオーディオ品質を示す。
論文 参考訳(メタデータ) (2024-10-21T08:23:31Z) - Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference [10.909997817643905]
提案する低フレームレート音声符号化(LFSC: Low Frame-rate Speech Codec)は, 有限スカラー量子化と大規模言語モデルによる対角訓練を利用して, 1.89kbps, 21.5fpsの高品質音声圧縮を実現するニューラルオーディオである。
本稿では,従来のモデルに匹敵する品質を向上しつつ,テキスト音声モデルの3倍高速な推定が可能であることを実証する。
論文 参考訳(メタデータ) (2024-09-18T16:39:10Z) - Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。
X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。
音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T10:24:07Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Enhancing into the codec: Noise Robust Speech Coding with
Vector-Quantized Autoencoders [21.74276379834421]
We developed compressor-enhancer encoders and accompanieding decoders based on VQ-VAE autoencoders with WaveRNN decoders。
コンプレッサー・エンハンサーモデルは, クリーン音声のみを訓練したコンプレッサーモデルよりも, クリーン音声入力において優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-12T16:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。