論文の概要: SyllableLM: Learning Coarse Semantic Units for Speech Language Models
- arxiv url: http://arxiv.org/abs/2410.04029v1
- Date: Sat, 5 Oct 2024 04:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:40:27.474664
- Title: SyllableLM: Learning Coarse Semantic Units for Speech Language Models
- Title(参考訳): SyllableLM: 音声認識モデルのための粗意味単位の学習
- Authors: Alan Baade, Puyuan Peng, David Harwath,
- Abstract要約: 本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
- 参考スコア(独自算出の注目度): 21.762112843104028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models require tokenized inputs. However, tokenization strategies for continuous data like audio and vision are often based on simple heuristics such as fixed sized convolutions or discrete clustering, which do not necessarily align with the semantic structure of the data. For speech in particular, the high resolution of waveforms (16,000 samples/second or more) presents a significant challenge as speech-based language models have had to use several times more tokens per word than text-based language models. In this work, we introduce a controllable self-supervised technique to merge speech representations into coarser syllable-like units while still preserving semantic information. We do this by 1) extracting noisy boundaries through analyzing correlations in pretrained encoder losses and 2) iteratively improving model representations with a novel distillation technique. Our method produces controllable-rate semantic units at as low as 5Hz and 60bps and achieves SotA in syllabic segmentation and clustering. Using these coarse tokens, we successfully train SyllableLM, a Speech Language Model (SpeechLM) that matches or outperforms current SotA SpeechLMs on a range of spoken language modeling tasks. SyllableLM also achieves significant improvements in efficiency with a 30x reduction in training compute and a 4x wall-clock inference speedup.
- Abstract(参考訳): 言語モデルはトークン化された入力を必要とする。
しかし、オーディオやビジョンのような連続データに対するトークン化戦略は、しばしば固定サイズの畳み込みや離散クラスタリングのような単純なヒューリスティックに基づいており、必ずしもデータのセマンティック構造と一致しない。
特に音声の場合、高解像度の波形(16,000サンプル/秒以上)は、音声ベースの言語モデルでは、テキストベースの言語モデルよりも数倍のトークンを使用する必要があったため、大きな課題となる。
本研究では,意味情報を保存しながら,音声表現を粗い音節的単位にマージする制御可能な自己教師手法を提案する。
私たちはこれをします
1)事前学習したエンコーダ損失と相関関係の分析によるノイズ境界の抽出
2) 新しい蒸留技術によりモデル表現を反復的に改善する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,音節分割とクラスタリングでSotAを実現する。
これらの粗いトークンを用いて,SyllableLM(SpeechLM)の訓練に成功した。
SyllableLMはまた、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
関連論文リスト
- DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。
WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,教師モデルの指数移動平均である教師モデルから抽出した音節セグメントの特徴を回帰する自己教師型モデルを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 語彙的・構文的理解に適した音節単位。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Word Segmentation from Discrete Speech Units in
Low-Resource Settings [27.577882924447284]
音声からの教師なしワード(UWS)は有用だが、難しい作業である。
UWSにおける生成単位の可利用性について、5つの音声認識モデルを比較した。
以上の結果から,音声の離散化のためのニューラルモデルの利用は困難であり,シーケンス長の制限に適応する必要がある可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-08T12:50:37Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。