論文の概要: U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation
- arxiv url: http://arxiv.org/abs/2510.16718v1
- Date: Sun, 19 Oct 2025 05:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.110621
- Title: U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation
- Title(参考訳): U-Codec:高速高忠実音声生成のための超低フレームレートニューラル音声コーデック
- Authors: Xusheng Yang, Long Zhou, Wenfu Wang, Kai Hu, Shulin Feng, Chenxing Li, Meng Yu, Dong Yu, Yuexian Zou,
- Abstract要約: U-Codecは5Hzの超低フレームレートで高忠実度再構成と高速音声生成を実現する。
U-Codecを大規模言語モデル(LLM)ベースの自動回帰TSモデルに適用する。
- 参考スコア(独自算出の注目度): 71.59514998928833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose \textbf{U-Codec}, an \textbf{U}ltra low frame-rate neural speech \textbf{Codec} that achieves high-fidelity reconstruction and fast speech generation at an extremely low frame-rate of 5Hz (5 frames per second). Extreme compression at 5Hz typically leads to severe intelligibility and spectral detail loss, we introduce a Transformer-based inter-frame long-term dependency module and systematically explore residual vector quantization (RVQ) depth and codebook size to identify optimal configurations. Moreover, we apply U-Codec into a large language model (LLM)-based auto-regressive TTS model, which leverages global and local hierarchical architecture to effectively capture dependencies across multi-layer tokens. We extend LLM-based TTS from 3-layer RVQ at 50Hz to 32-layer RVQ at 5Hz. Experimental results demonstrate that U-Codec improves LLM-based TTS inference speed by around 3 $\times$ over high-frame-rate codecs while maintaining similarity and naturalness. These results validate the feasibility of using highly compressed 5Hz discrete tokens for fast and high-fidelity speech synthesis.
- Abstract(参考訳): 本稿では,低フレームレートの低フレームレートニューラルスピーチである‘textbf{U}ltra \textbf{U}ltra \textbf{Codec} を提案する。
我々はTransformerベースのフレーム間長期依存モジュールを導入し、最適構成を特定するために残留ベクトル量子化(RVQ)深さとコードブックサイズを体系的に探索する。
さらに,U-Codecを大規模言語モデル(LLM)ベースの自動回帰TSモデルに適用し,グローバルおよびローカル階層アーキテクチャを活用し,多層トークン間の依存関係を効果的にキャプチャする。
LLMベースのTTSを50Hzで3層RVQから5Hzで32層RVQに拡張する。
U-Codec は LLM ベースの TTS 推論速度を高フレームレートコーデックよりも 3 ドル程度向上し,類似性と自然性を維持した。
これらの結果は,高速かつ高忠実な音声合成に高圧縮5Hz離散トークンを用いることの有効性を検証する。
関連論文リスト
- Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding [0.0]
本稿では, 複雑な残差ベクトル量子化スタックの必要性に対して, より単純な単一段階量子化アプローチを導入することにより, ニューラルスピーチを提案する。
本手法は,メル・スペクトログラムを直接操作し,それを2次元データとして扱い,重複しない4x4パッチを1つの共有コードブックに定量化する。
このパッチワイズ設計はアーキテクチャを単純化し、低レイテンシのストリーミングを可能にし、離散遅延グリッドを生成する。
論文 参考訳(メタデータ) (2025-09-02T12:14:41Z) - TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling [13.05578634768109]
テキスト対応拡散変換器音声コーデック(TaDiCodec)について紹介する。
TaDiCodecは拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用している。
フレームレートは6.25Hzで、それに対応する圧縮は0.0875kbpsで、1層コードブックで24kHzの音声を処理できる。
論文 参考訳(メタデータ) (2025-08-22T20:45:03Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate [14.03590336780589]
本稿では,ニューラル音声コーデックに可変フレームレート(VFR)を初めて導入する,TFC(Temporally Flexible Coding)手法を提案する。
TFCはフレームレートをシームレスに平均化し、時間エントロピーに基づいてフレームレートを動的に割り当てる。
実験結果から,TFCを用いた神経再建は高い柔軟性で最適品質を達成し,低フレームレートでも競争性能を維持することが示された。
論文 参考訳(メタデータ) (2025-05-22T16:10:01Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-rate attention architecture for fast streamable Text-to-speech
spectrum modeling [5.080331097831114]
高品質のテキストと音声(TTS)システムは、スペクトルフレームを生成するスペクトルモデルステージと実際のオーディオを生成するボコーダステージを備えた2段階のアーキテクチャを使用します。
これらのモデルは高品質な音声を生成することができるが、入力長に関してレイテンシーとリアルタイム因子(rtf)の両方にol$を負うことが多い。
本稿では,ストリーミング中にコンパクト表現を符号化することでレイテンシボトルネックを解消するマルチレートアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-01T18:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。