論文の概要: PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders
- arxiv url: http://arxiv.org/abs/2404.02702v2
- Date: Sat, 13 Apr 2024 11:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:50:54.838316
- Title: PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders
- Title(参考訳): PromptCodec: Adaptive Feature-Aware Prompt Encoders を用いたディスタングル表現学習を用いた高忠実性ニューラル音声符号化
- Authors: Yu Pan, Lei Ma, Jianjun Zhao,
- Abstract要約: 本稿では,特徴認識型プロンプトエンコーダを用いた新しいエンドツーエンドニューラルスピーチであるPromptCodecを提案する。
提案したPromptCodecは、あらゆる異なる条件下で、最先端のニューラルスピーチモデルより一貫して優れています。
- 参考スコア(独自算出の注目度): 6.375882733058943
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural speech codec has recently gained widespread attention in generative speech modeling domains, like voice conversion, text-to-speech synthesis, etc. However, ensuring high-fidelity audio reconstruction of speech codecs under low bitrate remains an open and challenging issue. In this paper, we propose PromptCodec, a novel end-to-end neural speech codec using feature-aware prompt encoders based on disentangled representation learning. By incorporating prompt encoders to capture representations of additional input prompts, PromptCodec can distribute the speech information requiring processing and enhance its representation capabilities. Moreover, a simple yet effective adaptive feature weighted fusion approach is introduced to integrate features of different encoders. Meanwhile, we propose a novel disentangled representation learning strategy based on structure similarity index measure to optimize PromptCodec's encoders to ensure their efficiency, thereby further improving the performance of PromptCodec. Experiments on LibriTTS demonstrate that our proposed PromptCodec consistently outperforms state-of-the-art neural speech codec models under all different bitrate conditions while achieving superior performance with low bitrates.
- Abstract(参考訳): ニューラル音声コーデックは、最近、音声変換、テキスト音声合成など、生成的音声モデリング領域で広く注目を集めている。
しかし、低ビットレート下での音声コーデックの高忠実度再生を保証することは、オープンで困難な問題である。
本稿では,不整合表現学習に基づく特徴認識型プロンプトエンコーダを用いた,エンドツーエンドのニューラル音声コーデックであるPromptCodecを提案する。
プロンプトエンコーダを組み込んで追加の入力プロンプトの表現をキャプチャすることで、PromptCodecは処理を必要とする音声情報を配布し、その表現能力を高めることができる。
さらに、異なるエンコーダの機能を統合するために、単純で効果的な適応的特徴重み付き融合法が導入された。
本稿では,PromptCodecのエンコーダを最適化し,その効率を向上し,PromptCodecの性能向上を図るために,構造類似度指数尺度に基づく新しい非絡み合い表現学習戦略を提案する。
LibriTTSの実験では、提案したPromptCodecは、あらゆる異なるビットレート条件下で、最先端のニューラル音声コーデックモデルより一貫して優れ、低ビットレートで優れた性能を実現している。
関連論文リスト
- CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit
for Neural Speech Codec [55.95078490630001]
本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声ツールキット FunCodec について述べる。
FunCodecは、SoundStreamやEncodecといった最新のニューラルスピーチモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。
FunCodecとともに、事前訓練されたモデルも提供される。
論文 参考訳(メタデータ) (2023-09-14T03:18:24Z) - RepCodec: A Speech Representation Codec for Speech Tokenization [21.60885344868044]
RepCodecは意味的音声トークン化のための新しい表現である。
RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-31T23:26:10Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Ultra-Low-Bitrate Speech Coding with Pretrained Transformers [28.400364949575103]
音声符号化は、最小歪みの低帯域ネットワーク上での音声の伝送を容易にする。
インダクティブバイアスによる入力信号の長距離依存性を活用できる事前学習型トランスフォーマーを用いる。
論文 参考訳(メタデータ) (2022-07-05T18:52:11Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Less is More: Pre-training a Strong Siamese Encoder Using a Weak Decoder [75.84152924972462]
多くの実世界のアプリケーションはSiameseネットワークを使用して、テキストシーケンスを大規模に効率的にマッチングします。
本稿では,シームズアーキテクチャにおけるシーケンスマッチング専用の言語モデルを事前学習する。
論文 参考訳(メタデータ) (2021-02-18T08:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。