論文の概要: NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training
- arxiv url: http://arxiv.org/abs/2409.08680v1
- Date: Fri, 13 Sep 2024 09:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:08:51.591388
- Title: NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training
- Title(参考訳): NEST-RQ: 自己監督型事前学習のための次のトークン予測
- Authors: Minglun Han, Ye Bai, Chen Shen, Youjia Huang, Mingkun Huang, Zehua Lin, Linhao Dong, Lu Lu, Yuxuan Wang,
- Abstract要約: ランダム投影量化器(NEST-RQ)を用いた次のトークン予測に基づく事前学習手法を提案する。
NEST-RQでは、左コンテキストのみの因果エンコーダを採用し、トレーニングタスクとして次のトークン予測(NTP)を使用している。
大規模データセットでは、BEST-RQと比較して、提案したNEST-RQは、非ストリーミング自動音声認識(ASR)における同等のパフォーマンスと、ストリーミングASRにおけるより良いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 17.54331997432642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech self-supervised pre-training can effectively improve the performance of downstream tasks. However, previous self-supervised learning (SSL) methods for speech, such as HuBERT and BEST-RQ, focus on utilizing non-causal encoders with bidirectional context, and lack sufficient support for downstream streaming models. To address this issue, we introduce the next token prediction based speech pre-training method with random-projection quantizer (NEST-RQ). NEST-RQ employs causal encoders with only left context and uses next token prediction (NTP) as the training task. On the large-scale dataset, compared to BEST-RQ, the proposed NEST-RQ achieves comparable performance on non-streaming automatic speech recognition (ASR) and better performance on streaming ASR. We also conduct analytical experiments in terms of the future context size of streaming ASR, the codebook quality of SSL and the model size of the encoder. In summary, the paper demonstrates the feasibility of the NTP in speech SSL and provides empirical evidence and insights for speech SSL research.
- Abstract(参考訳): 音声による事前学習は、下流タスクの性能を効果的に向上させることができる。
しかし、HuBERTやBEST-RQといった従来の音声の自己教師付き学習(SSL)手法は、双方向コンテキストの非因果エンコーダの利用に重点を置いており、ダウンストリームストリーミングモデルに対する十分なサポートを欠いている。
この問題に対処するために、ランダム投影量化器(NEST-RQ)を用いた次のトークン予測に基づく事前学習手法を提案する。
NEST-RQでは、左コンテキストのみの因果エンコーダを採用し、トレーニングタスクとして次のトークン予測(NTP)を使用している。
大規模データセットでは、BEST-RQと比較して、提案したNEST-RQは、非ストリーミング自動音声認識(ASR)における同等のパフォーマンスと、ストリーミングASRにおけるより良いパフォーマンスを達成する。
また,ストリーミングASRの今後のコンテキストサイズ,SSLのコードブック品質,エンコーダのモデルサイズについても分析実験を行った。
要約して,本論文は音声SSLにおけるNTPの実現可能性を示し,音声SSL研究の実証的証拠と知見を提供する。
関連論文リスト
- Open Implementation and Study of BEST-RQ for Speech Processing [25.678292575349648]
ランダム投影量子化器(BEST-RQ)を用いたBERTに基づく音声事前学習は、音声認識(ASR)において優れた性能を示した。
ランダム・プロジェクション・量子化器は、トレーニング時間を2倍以上削減しつつ、wav2vec 2.0と同様のダウンストリーム性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-07T13:11:37Z) - An Experimental Study: Assessing the Combined Framework of WavLM and
BEST-RQ for Text-to-Speech Synthesis [0.5076419064097734]
本稿では,TTS(text-to-speech)モデルに適した新しいモデルアーキテクチャを提案する。
我々は,事前訓練された自己教師付き学習(SSL)音声モデルであるWavLMと,BEST-RQベクトル量子化フレームワークを組み合わせた。
SUPERBベンチマークによるLibriSpeechデータセットの実験では、提案モデルの性能は著しく低下している。
論文 参考訳(メタデータ) (2023-12-08T23:59:25Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition [78.67749936030219]
Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。
低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
論文 参考訳(メタデータ) (2021-06-10T17:32:25Z) - Improving RNN Transducer Based ASR with Auxiliary Tasks [21.60022481898402]
単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは、最近最先端の結果を実証した。
本研究では,リカレントニューラルネットワークトランスデューサ(RNN-T)が補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
論文 参考訳(メタデータ) (2020-11-05T21:46:32Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。