論文の概要: Semantic Codebooks as Effective Priors for Neural Speech Compression
- arxiv url: http://arxiv.org/abs/2512.21653v1
- Date: Thu, 25 Dec 2025 12:49:41 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:39.264359
- Title: Semantic Codebooks as Effective Priors for Neural Speech Compression
- Title(参考訳): 音声圧縮に有効なセマンティックコードブック
- Authors: Liuyang Bai, Weiyi Lu, Li Guo,
- Abstract要約: SemDACはセマンティック・アウェアなニューラル・オーディオであり、セマンティック・コードブックを音声圧縮の効果的な先行要素として活用する。
FiLM条件付きデコーダは、セマンティックトークンに条件付きオーディオを再構成し、音響コードブックの使用効率を向上させる。
- 参考スコア(独自算出の注目度): 3.4074476957610074
- License:
- Abstract: Speech codecs are traditionally optimized for waveform fidelity, allocating bits to preserve acoustic detail even when much of it can be inferred from linguistic structure. This leads to inefficient compression and suboptimal performance on downstream recognition tasks. We propose SemDAC, a semantic-aware neural audio codec that leverages semantic codebooks as effective priors for speech compression. In SemDAC, the first quantizer in a residual vector quantization (RVQ) stack is distilled from HuBERT features to produce semantic tokens that capture phonetic content, while subsequent quantizers model residual acoustics. A FiLM-conditioned decoder reconstructs audio conditioned on the semantic tokens, improving efficiency in the use of acoustic codebooks. Despite its simplicity, this design proves highly effective: SemDAC outperforms DAC across perceptual metrics and achieves lower WER when running Whisper on reconstructed speech, all while operating at substantially lower bitrates (e.g., 0.95 kbps vs. 2.5 kbps for DAC). These results demonstrate that semantic codebooks provide an effective inductive bias for neural speech compression, producing compact yet recognition-friendly representations.
- Abstract(参考訳): 音声コーデックは、伝統的に波形の忠実さに最適化されており、その大部分が言語構造から推測できる場合でも、音響的詳細を保存するためにビットを割り当てている。
これにより、下流認識タスクにおける非効率な圧縮と準最適性能が得られる。
本稿では,セマンティックな音声コーデックであるSemDACを提案する。
SemDACでは、残留ベクトル量子化(RVQ)スタックの最初の量子化器がHumberTの特徴から蒸留され、音素の内容をキャプチャする意味トークンが生成され、その後、量子化器は残留音響をモデル化する。
FiLM条件付きデコーダは、セマンティックトークンに条件付きオーディオを再構成し、音響コードブックの使用効率を向上させる。
SemDACは知覚的メトリクスでDACを上回り、再構成された音声でWhisperを実行する際に低WERを達成する。
これらの結果は、セマンティック・コードブックがニューラルネットワーク圧縮に効果的な帰納的バイアスを与え、コンパクトだが認識しやすい表現を生成することを示した。
関連論文リスト
- Codec2Vec: Self-Supervised Speech Representation Learning Using Neural Speech Codecs [29.817724789807457]
Codec2Vecは、離散音声単位のみに依存する最初の音声表現学習フレームワークである。
このアプローチには、データストレージと送信効率の改善、トレーニングの高速化、データプライバシの向上など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2025-11-20T18:46:15Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [33.022035588157614]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプルとコードはhttps://lucadellalib.io/kbpscodec-web/.comで公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Latent-Domain Predictive Neural Speech Coding [33.458968443594415]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
音声データセットの主観的な結果は、低レイテンシでは、提案したTF-Codecは1kbpsで9kbpsよりも大幅に品質が向上することを示している。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。