論文の概要: PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders
- arxiv url: http://arxiv.org/abs/2404.02702v1
- Date: Wed, 3 Apr 2024 13:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:21:13.416420
- Title: PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders
- Title(参考訳): PromptCodec: Adaptive Feature-Aware Prompt Encoders を用いたディスタングル表現学習を用いた高忠実性ニューラル音声符号化
- Authors: Yu Pan, Lei Ma, Jianjun Zhao,
- Abstract要約: 本稿では,不整合表現に基づく特徴認識型プロンプトエンコーダを用いたニューラル・ツー・エンドのニューラル・スピーチ・モデルであるPromptCodecを提案する。
提案したPromptCodecは、あらゆる異なる条件下で、最先端のニューラルスピーチモデルより一貫して優れています。
- 参考スコア(独自算出の注目度): 6.375882733058943
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural speech codec has recently gained widespread attention in generative speech modeling domains, like voice conversion, text-to-speech synthesis, etc. However, ensuring high-fidelity audio reconstruction of speech codecs under high compression rates remains an open and challenging issue. In this paper, we propose PromptCodec, a novel end-to-end neural speech codec model using disentangled representation learning based feature-aware prompt encoders. By incorporating additional feature representations from prompt encoders, PromptCodec can distribute the speech information requiring processing and enhance its capabilities. Moreover, a simple yet effective adaptive feature weighted fusion approach is introduced to integrate features of different encoders. Meanwhile, we propose a novel disentangled representation learning strategy based on cosine distance to optimize PromptCodec's encoders to ensure their efficiency, thereby further improving the performance of PromptCodec. Experiments on LibriTTS demonstrate that our proposed PromptCodec consistently outperforms state-of-the-art neural speech codec models under all different bitrate conditions while achieving impressive performance with low bitrates.
- Abstract(参考訳): ニューラル音声コーデックは、最近、音声変換、テキスト音声合成など、生成的音声モデリング領域で広く注目を集めている。
しかし、高い圧縮率下での音声コーデックの高忠実度再生を保証することは、オープンで困難な問題である。
本稿では,不整合表現学習に基づく特徴認識プロンプトエンコーダを用いたニューラル・ツー・エンドのニューラル・コーデック・モデルであるPromptCodecを提案する。
プロンプトエンコーダから付加的な特徴表現を組み込むことで、PromptCodecは処理を必要とする音声情報を配布し、その機能を強化することができる。
さらに、異なるエンコーダの機能を統合するために、単純で効果的な適応的特徴重み付き融合法が導入された。
一方,PromptCodecのエンコーダを最適化し,効率を向上し,PromptCodecの性能向上を図るために,コサイン距離に基づく新しい非絡み合い表現学習戦略を提案する。
LibriTTSの実験では、提案したPromptCodecは、あらゆる異なるビットレート条件下で、最先端のニューラル音声コーデックモデルより一貫して優れ、低ビットレートで優れたパフォーマンスを実現している。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - RepCodec: A Speech Representation Codec for Speech Tokenization [21.60885344868044]
RepCodecは意味的音声トークン化のための新しい表現である。
RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-31T23:26:10Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Scalable and Efficient Neural Speech Coding [24.959825692325445]
本研究では,音声圧縮のためのスケーラブルかつ効率的なニューラル波形(NWC)を提案する。
提案するcnnオートエンコーダは、量子化と符号化を訓練可能なモジュールとして定義する。
他の自己回帰型デコーダベースのニューラルスピーチと比較すると、デコーダのアーキテクチャは大幅に小さい。
論文 参考訳(メタデータ) (2021-03-27T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。