論文の概要: XY-Tokenizer: Mitigating the Semantic-Acoustic Conflict in Low-Bitrate Speech Codecs
- arxiv url: http://arxiv.org/abs/2506.23325v1
- Date: Sun, 29 Jun 2025 16:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.832155
- Title: XY-Tokenizer: Mitigating the Semantic-Acoustic Conflict in Low-Bitrate Speech Codecs
- Title(参考訳): XY-Tokenizer:低ビット音声符号化における意味的・音響的対立の緩和
- Authors: Yitian Gong, Luozhijie Jin, Ruifan Deng, Dong Zhang, Xin Zhang, Qinyuan Cheng, Zhaoye Fei, Shimin Li, Xipeng Qiu,
- Abstract要約: 既存の音声コーデックは、高品質な音声再構成と言語モデルによるモデリングの容易さのバランスをとるのに苦労している。
XY-Tokenizerは,多段階マルチタスク学習による意味的能力と音響的能力の対立を緩和する小説である。
- 参考スコア(独自算出の注目度): 45.655747597751706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech codecs serve as bridges between speech signals and large language models. An ideal codec for speech language models should not only preserve acoustic information but also capture rich semantic information. However, existing speech codecs struggle to balance high-quality audio reconstruction with ease of modeling by language models. In this study, we analyze the limitations of previous codecs in balancing semantic richness and acoustic fidelity. We propose XY-Tokenizer, a novel codec that mitigates the conflict between semantic and acoustic capabilities through multi-stage, multi-task learning. Experimental results demonstrate that XY-Tokenizer achieves performance in both semantic and acoustic tasks comparable to that of state-of-the-art codecs operating at similar bitrates, even though those existing codecs typically excel in only one aspect. Specifically, XY-Tokenizer achieves strong text alignment, surpassing distillation-based semantic modeling methods such as SpeechTokenizer and Mimi, while maintaining a speaker similarity score of 0.83 between reconstructed and original audio. The reconstruction performance of XY-Tokenizer is comparable to that of BigCodec, the current state-of-the-art among acoustic-only codecs, which achieves a speaker similarity score of 0.84 at a similar bitrate. Code and models are available at https://github.com/gyt1145028706/XY-Tokenizer.
- Abstract(参考訳): 音声コーデックは、音声信号と大きな言語モデルの間のブリッジとして機能する。
言語モデルのための理想的なコーデックは、音響情報を保存するだけでなく、リッチなセマンティック情報をキャプチャする必要がある。
しかし、既存の音声コーデックは、高品質な音声再構成と言語モデルによるモデリングの容易さのバランスをとるのに苦労している。
本研究では,意味的豊かさと音響的忠実さのバランスをとる上で,従来のコーデックの限界を分析する。
XY-Tokenizerは,多段階マルチタスク学習による意味と音響能力の対立を緩和する新しいコーデックである。
実験結果から,XY-Tokenizer は,従来のコーデックが1つの面のみに優れていた場合でも,同じビットレートで動作する最先端コーデックに匹敵する意味的タスクと音響的タスクの両方で性能を達成できることが示された。
具体的には、XY-TokenizerはSpeechTokenizerやMimiのような蒸留に基づくセマンティックモデリング手法を超越し、再構成音声とオリジナル音声の話者類似度スコア0.83を維持しながら、強いテキストアライメントを実現する。
XY-Tokenizerの再構成性能は、音響のみのコーデックの中で現在最先端のBigCodecと同等であり、同様のビットレートでの話者類似度スコアは0.84である。
コードとモデルはhttps://github.com/gyt1145028706/XY-Tokenizerで入手できる。
関連論文リスト
- Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec [14.7377193484733]
LSCodecは低話者分離能力と低話者分離能力を持つ離散音声である。
リコンストラクション評価により、LSCodecは単一のコードブックだけで、ベースラインよりも語彙サイズが小さく、優れたインテリジェンス性とオーディオ品質を示す。
論文 参考訳(メタデータ) (2024-10-21T08:23:31Z) - Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。
X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。
音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T10:24:07Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。