論文の概要: SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data
- arxiv url: http://arxiv.org/abs/2209.15329v3
- Date: Thu, 15 Jun 2023 14:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 03:34:15.698314
- Title: SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data
- Title(参考訳): SpeechLM: テキストデータによる音声事前学習の強化
- Authors: Ziqiang Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren, Shujie Liu,
Zhuoyuan Yao, Xun Gong, Lirong Dai, Jinyu Li, Furu Wei
- Abstract要約: 本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
- 参考スコア(独自算出の注目度): 100.46303484627045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to boost speech pre-training with textual data is an unsolved problem due
to the fact that speech and text are very different modalities with distinct
characteristics. In this paper, we propose a cross-modal Speech and Language
Model (SpeechLM) to explicitly align speech and text pre-training with a
pre-defined unified discrete representation. Specifically, we introduce two
alternative discrete tokenizers to bridge the speech and text modalities,
including phoneme-unit and hidden-unit tokenizers, which can be trained using a
small amount of paired speech-text data. Based on the trained tokenizers, we
convert the unlabeled speech and text data into tokens of phoneme units or
hidden units. The pre-training objective is designed to unify the speech and
the text into the same discrete semantic space with a unified Transformer
network. We evaluate SpeechLM on various spoken language processing tasks
including speech recognition, speech translation, and universal representation
evaluation framework SUPERB, demonstrating significant improvements on
content-related tasks. Code and models are available at
https://aka.ms/SpeechLM.
- Abstract(参考訳): 音声とテキストが異なる特徴を持つ非常に異なるモダリティであるという事実から,テキストデータによる音声事前学習の促進は未解決の問題である。
本稿では,音声とテキストの事前学習を事前に定義した個別表現と明示的に整合させる言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジする2つの別の離散トークン化器(音素単位と隠れ単位トークン化器)を導入し、少量のペア音声テキストデータを用いて訓練する。
訓練されたトークン化子に基づき、ラベルなしの音声とテキストデータを音素単位または隠れ単位のトークンに変換する。
事前学習の目的は、音声とテキストを統一トランスフォーマーネットワークで同じ離散的な意味空間に統一することである。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 各種音声言語処理タスクにおけるSpeechLM の評価を行い, 内容関連タスクの大幅な改善を示す。
コードとモデルはhttps://aka.ms/speechlm.com/で入手できる。
関連論文リスト
- MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。