論文の概要: Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling
- arxiv url: http://arxiv.org/abs/2601.20185v1
- Date: Wed, 28 Jan 2026 02:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.735915
- Title: Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling
- Title(参考訳): 多言語音声におけるX-Codec-2.0の改良:25Hz潜時レートと24kHzサンプリング
- Authors: Husein Zolkepli,
- Abstract要約: X-Codec-2.0は、ニューラルオーディオ圧縮と多言語音声モデリングにおいて強力な性能を持つ。
X-Codec-2.0は50Hzの遅延レートと16kHzのサンプリングレートでフリーズしたHumberT機能で動作している。
本研究では,追加プールの導入とデコーダホップサイズの増大による簡易かつ効果的な修正について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: X-Codec-2.0 has shown strong performance in neural audio compression and multilingual speech modeling, operating at a 50 Hz latent rate and a 16 kHz sampling rate using frozen HuBERT features. While effective, this configuration limits temporal efficiency and audio fidelity. In this work, we explore a simple and effective modification by introducing additional pooling and increasing the decoder hop size. This reduces the latent rate from 50 Hz to 25 Hz and simultaneously raises the output sampling rate from 16 kHz to 24 kHz, improving efficiency and perceptual quality without altering the core architecture. Evaluated on the multilingual Common Voice 17 test set, the proposed configuration achieves a 0.29 MOS improvement over the original X-Codec-2.0 baseline based on UTMOSv2, and attains the best reported performance among all codecs operating at 25 Hz. The source code, checkpoints, and generation comparisons are released at \href{https://huggingface.co/Scicom-intl/xcodec2-25TPS-24k}{https://huggingface.co/Scicom-intl/xcodec2-25TPS-24k}.
- Abstract(参考訳): X-Codec-2.0は、凍結したHuBERT特徴を用いた50Hz遅延レートと16kHzサンプリングレートで動作し、ニューラルオーディオ圧縮と多言語音声モデリングにおいて強力な性能を示している。
有効ではあるが、この構成は時間的効率とオーディオの忠実さを制限している。
そこで本研究では,追加プールを導入し,デコーダのホップサイズを増大させることにより,簡易かつ効果的に改良することを提案する。
これにより遅延レートが50Hzから25Hzに減少し、同時に出力サンプリングレートが16kHzから24kHzに向上し、コアアーキテクチャを変更することなく効率と知覚品質が向上する。
UTMOSv2に基づくX-Codec-2.0ベースラインよりも0.29MOSの改善を実現し,25Hzで動作する全コーデックの中で最高の性能を達成している。
ソースコード、チェックポイント、生成の比較は \href{https://huggingface.co/Scicom-intl/xcodec2-25TPS-24k}{https://huggingface.co/Scicom-intl/xcodec2-25TPS-24k} で公開されている。
関連論文リスト
- Qwen3-TTS Technical Report [64.94647392030824]
本稿では,Qwen3-TTSシリーズについて述べる。
Qwen3-TTSは最先端の3秒間音声クローニングと記述ベースの制御をサポートする。
Qwen3-TTSは、2つの音声トークンとともに、リアルタイム合成のためのデュアルトラックLMアーキテクチャを採用している。
論文 参考訳(メタデータ) (2026-01-22T03:51:43Z) - U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation [71.59514998928833]
U-Codecは5Hzの超低フレームレートで高忠実度再構成と高速音声生成を実現する。
U-Codecを大規模言語モデル(LLM)ベースの自動回帰TSモデルに適用する。
論文 参考訳(メタデータ) (2025-10-19T05:09:20Z) - Real-Time Streaming Mel Vocoding with Generative Flow Matching [36.694031349672954]
我々は,32ms,48msのアルゴリズムを用いて,16kHzでサンプリングした音声用ストリーミング対応ジェネレータMel vocoderを開発した。
我々は,HyFi-GANを含むメルボコーディングにおいて,ストリーミング可能でないベースラインに比べて,PSSQとSI-SDRの精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-09-18T15:43:06Z) - TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling [13.05578634768109]
テキスト対応拡散変換器音声コーデック(TaDiCodec)について紹介する。
TaDiCodecは拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用している。
フレームレートは6.25Hzで、それに対応する圧縮は0.0875kbpsで、1層コードブックで24kHzの音声を処理できる。
論文 参考訳(メタデータ) (2025-08-22T20:45:03Z) - FlowDec: A flow-based full-band general audio codec with high perceptual quality [90.05968801459524]
FlowDecは、48kHzでサンプリングされた一般的なオーディオのためのニューラルフルバンドオーディオコーデックである。
音声から一般的な音声へ一般化し、24kbit/sから4kbit/sまで移行する。
論文 参考訳(メタデータ) (2025-03-03T12:49:09Z) - DelightfulTTS: The Microsoft Speech Synthesis System for Blizzard
Challenge 2021 [31.750875486806184]
本稿では、Microsoftのエンドツーエンドニューラルテキスト音声合成システム(TTS: DelightfulTTS for Blizzard Challenge 2021)について述べる。
この課題の目的は、テキストから自然かつ高品質な音声を合成することであり、我々はこの目標に2つの視点でアプローチする。
論文 参考訳(メタデータ) (2021-10-25T02:47:59Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - NU-GAN: High resolution neural upsampling with GAN [60.02736450639215]
NU-GANはサンプリングレート(アップサンプリング)の低値から高値へのオーディオ再サンプリング法である
このようなアプリケーションは44.1kHzまたは48kHzの解像度でオーディオを使用するが、現在の音声合成法は最大24kHzの解像度で処理できる。
ABX選好試験は、我々のNU-GAN再サンプリング装置が22kHzから44.1kHzのオーディオを再サンプリングでき、これは元のオーディオと区別できるが、単一の話者データセットのランダムな確率より7.4%高く、マルチスピーカーデータセットの確率より10.8%高い。
論文 参考訳(メタデータ) (2020-10-22T01:00:23Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。