論文の概要: Entropy-based Coarse and Compressed Semantic Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2509.00503v1
- Date: Sat, 30 Aug 2025 13:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.260593
- Title: Entropy-based Coarse and Compressed Semantic Speech Representation Learning
- Title(参考訳): エントロピーに基づく粗大度と圧縮された意味的音声表現学習
- Authors: Jialong Zuo, Guangyan Zhang, Minghui Fang, Shengpeng Ji, Xiaoqi Jiao, Jingyu Li, Yiwen Guo, Zhou Zhao,
- Abstract要約: 圧縮された意味表現を学習するためのエントロピーに基づく動的集約フレームワークを提案する。
ASR、音声からテキストへの変換、音声変換タスクの実験は、圧縮された表現が密度の高いトークンシーケンスと同等以上のパフォーマンスを示すことを示した。
- 参考スコア(独自算出の注目度): 72.18542411704347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete speech representation learning has recently attracted increasing interest in both acoustic and semantic modeling. Existing approaches typically encode 16 kHz waveforms into discrete tokens at a rate of 25 or 50 tokens per second. However, given that speech generally conveys only 2 to 5 words per second, such fine-grained tokenization introduces redundancy and hinders efficiency in downstream training and inference. Moreover, semantic speech representations at this frequency primarily capture phonetic-level information, while semantic understanding may not require such detailed token-level resolution. To address these limitations, we propose an entropy-based dynamic aggregation framework for learning compressed semantic speech representations. A speech language model is first pre-trained via next-token prediction on large-scale unlabeled data to capture frequent token patterns. Predictive entropy is then used to adaptively determine aggregation boundaries, followed by a cross-attention module that fuses information within each segment. By adjusting the entropy threshold, the granularity and compression ratio of the representations can be flexibly controlled. Experiments on ASR, speech-to-text translation, and voice conversion tasks demonstrate that the compressed representations perform on par with or better than dense token sequences, demonstrating the effectiveness of the proposed approach.
- Abstract(参考訳): 離散表現学習は近年,音響モデルと意味モデルの両方への関心が高まっている。
既存のアプローチは通常、16kHzの波形を毎秒25または50の速度で離散トークンに符号化する。
しかし、音声が1秒に2語から5語しか話さないことを考えると、このようなきめ細かいトークン化は冗長性をもたらし、下流での訓練や推論の効率を阻害する。
さらに、この周波数でのセマンティック音声表現は、主に音素レベルの情報をキャプチャするが、セマンティック理解はそのような詳細なトークンレベルの解決を必要としないかもしれない。
これらの制約に対処するために,圧縮された意味表現を学習するためのエントロピーに基づく動的集約フレームワークを提案する。
音声言語モデルは,大規模未ラベルデータの次点予測を用いて事前学習を行い,頻繁なトークンパターンを抽出する。
予測エントロピーは、アグリゲーション境界を適応的に決定するために使用され、次に各セグメント内の情報を融合するクロスアテンションモジュールが続く。
エントロピー閾値を調整することにより、表現の粒度及び圧縮比を柔軟に制御することができる。
ASR, 音声からテキストへの翻訳, 音声変換タスクの実験により, 圧縮された表現が高密度なトークン列と同等以上の性能を示し, 提案手法の有効性を実証した。
関連論文リスト
- DiffSoundStream: Efficient Speech Tokenization via Diffusion Decoding [12.05169114091718]
DiffSoundStreamは、非ストリーミングシナリオにおける音声トークン化の効率を改善するソリューションである。
実験によると、毎秒50トークンのDiffSoundStreamは標準のSoundStreamモデルと同等の音声品質を実現している。
論文 参考訳(メタデータ) (2025-06-27T16:23:07Z) - Exploring the Effect of Segmentation and Vocabulary Size on Speech Tokenization for Speech Language Models [16.1461487947151]
音声トークン化は、音声信号を離散表現のシーケンスに変換する。
本稿では,音声トークン化の2つの重要な側面として,分割幅と離散単位のクラスタサイズについて検討する。
論文 参考訳(メタデータ) (2025-05-23T04:03:27Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。