論文の概要: SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data
- arxiv url: http://arxiv.org/abs/2209.15329v1
- Date: Fri, 30 Sep 2022 09:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:31:45.822399
- Title: SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data
- Title(参考訳): SpeechLM: テキストデータによる音声事前学習の強化
- Authors: Ziqiang Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren, Shujie Liu,
Zhuoyuan Yao, Xun Gong, Lirong Dai, Jinyu Li, Furu Wei
- Abstract要約: 本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
訓練されたトークン化器に基づいて、未ラベルの音声とテキストデータを音素単位または隠れ単位のトークンに変換する。
我々のSpeechLMは、パブリックなLibriSpeech ASRベンチマークにおいて、最高のベースモデル性能よりも16%の相対的なWER削減を実現しています。
- 参考スコア(独自算出の注目度): 100.46303484627045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to boost speech pre-training with textual data is an unsolved problem due
to the fact that speech and text are very different modalities with distinct
characteristics. In this paper, we propose a cross-modal Speech and Language
Model (SpeechLM) to explicitly align speech and text pre-training with a
pre-defined unified discrete representation. Specifically, we introduce two
alternative discrete tokenizers to bridge the speech and text modalities,
including phoneme-unit and hidden-unit tokenizers, which can be trained using a
small amount of paired speech-text data. Based on the trained tokenizers, we
convert the unlabeled speech and text data into tokens of phoneme units or
hidden units. The pre-training objective is designed to unify the speech and
the text into the same discrete semantic space with a unified Transformer
network. Leveraging only 10K text sentences, our SpeechLM gets a 16\% relative
WER reduction over the best base model performance (from 6.8 to 5.7) on the
public LibriSpeech ASR benchmark. Moreover, SpeechLM with fewer parameters even
outperforms previous SOTA models on CoVoST-2 speech translation tasks. We also
evaluate our SpeechLM on various spoken language processing tasks under the
universal representation evaluation framework SUPERB, demonstrating significant
improvements on content-related tasks. Our code and models are available at
https://aka.ms/SpeechLM.
- Abstract(参考訳): 音声とテキストが異なる特徴を持つ非常に異なるモダリティであるという事実から,テキストデータによる音声事前学習の促進は未解決の問題である。
本稿では,音声とテキストの事前学習を事前に定義した個別表現と明示的に整合させる言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジする2つの別の離散トークン化器(音素単位と隠れ単位トークン化器)を導入し、少量のペア音声テキストデータを用いて訓練する。
訓練されたトークン化子に基づき、ラベルなしの音声とテキストデータを音素単位または隠れ単位のトークンに変換する。
事前学習の目的は、音声とテキストを統一トランスフォーマーネットワークで同じ離散的な意味空間に統一することである。
私たちのSpeechLMは10Kテキストのみを活用することで、パブリックなLibriSpeech ASRベンチマークにおいて、最高のベースモデルパフォーマンス(6.8から5.7)よりも16倍の相対的なWER削減を実現しています。
さらに、パラメータの少ない speechlm は、covost-2 音声翻訳タスクの以前の sota モデルよりも優れています。
また, 汎用表現評価フレームワーク SUPERB を用いて, 各種音声言語処理タスクにおけるSpeechLM の評価を行い, 内容関連タスクの大幅な改善を実証した。
私たちのコードとモデルはhttps://aka.ms/speechlm.com/で利用可能です。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。