論文の概要: ZeroSyl: Simple Zero-Resource Syllable Tokenization for Spoken Language Modeling
- arxiv url: http://arxiv.org/abs/2602.15537v1
- Date: Tue, 17 Feb 2026 12:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.060555
- Title: ZeroSyl: Simple Zero-Resource Syllable Tokenization for Spoken Language Modeling
- Title(参考訳): ZeroSyl: 音声言語モデリングのためのZero-ResourceSyllable Tokenization
- Authors: Nicol Visser, Simon Malan, Danel Slabbert, Herman Kamper,
- Abstract要約: 純粋言語モデルは、テキストリソースを使わずに、生音声から直接言語を学ぶことを目的としている。
凍結したWavLMモデルから直接音節境界と埋め込みを抽出する訓練不要なZeroSylを提案する。
- 参考スコア(独自算出の注目度): 14.08454786805815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pure speech language models aim to learn language directly from raw audio without textual resources. A key challenge is that discrete tokens from self-supervised speech encoders result in excessively long sequences, motivating recent work on syllable-like units. However, methods like Sylber and SyllableLM rely on intricate multi-stage training pipelines. We propose ZeroSyl, a simple training-free method to extract syllable boundaries and embeddings directly from a frozen WavLM model. Using L2 norms of features in WavLM's intermediate layers, ZeroSyl achieves competitive syllable segmentation performance. The resulting segments are mean-pooled, discretized using K-means, and used to train a language model. ZeroSyl outperforms prior syllabic tokenizers across lexical, syntactic, and narrative benchmarks. Scaling experiments show that while finer-grained units are beneficial for lexical tasks, our discovered syllabic units exhibit better scaling behavior for syntactic modeling.
- Abstract(参考訳): 純粋言語モデルは、テキストリソースを使わずに、生音声から直接言語を学ぶことを目的としている。
鍵となる課題は、自己組織化された音声エンコーダからの離散トークンが過度に長いシーケンスをもたらし、音節的な単位に関する最近の研究を動機付けることである。
しかし、SylberやSyllableLMのようなメソッドは複雑なマルチステージトレーニングパイプラインに依存している。
凍結したWavLMモデルから直接音節境界と埋め込みを抽出する簡単な訓練不要なZeroSylを提案する。
WavLMの中間層の特徴のL2ノルムを用いて、ZeroSylは競合音節セグメンテーション性能を達成する。
得られたセグメントは平均プールされ、K平均を使用して離散化され、言語モデルのトレーニングに使用される。
ZeroSylは、語彙、構文、ナラティブのベンチマークで、以前のシラブ的トークンライザよりも優れています。
スケーリング実験により, より粒度の高い単位は語彙処理に有用であるが, 発見された音節単位は構文モデリングにおいてより優れたスケーリング挙動を示すことがわかった。
関連論文リスト
- SpidR: Learning Fast and Stable Linguistic Units for Spoken Language Models Without Supervision [25.71776883846138]
SpidRは、高度にアクセス可能な音声情報で表現を効率的に学習する自己教師型音声表現モデルである。
自己蒸留とオンラインクラスタリングを組み合わせたマスク付き予測目標を用いて生波形を訓練する。
wav2vec 2.0, HuBERT, WavLM, DinoSRをダウンストリーム言語モデリングベンチマークで上回ります。
論文 参考訳(メタデータ) (2025-12-23T12:22:25Z) - Scaling Spoken Language Models with Syllabic Speech Tokenization [17.835120807367677]
音声言語モデル(SLM)は通常、SSL音声モデルから抽出された高フレームレートトークンに音声認識を行う。
近年のSSL研究は音節レベルでの音声の音響的トークン化を導入している。
Syllabicトークンは、トレーニングと推論コストを大幅に削減しながら、以前の高フレームレートトークンにマッチまたは超過することができる。
論文 参考訳(メタデータ) (2025-09-30T17:59:09Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,Syllabicの埋め込みを自己教師なしのSyllabicセグメンテーションから抽出し,自己教師付き学習フレームワークを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 効率的な音声言語モデリングに適した新しい音韻単位,である。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。