論文の概要: MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2212.00500v1
- Date: Tue, 29 Nov 2022 13:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:39:26.921897
- Title: MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition
- Title(参考訳): MMSpeech:マルチモーダルマルチタスクエンコーダデコーダの事前学習による音声認識
- Authors: Xiaohuan Zhou, Jiaming Wang, Zeyu Cui, Shiliang Zhang, Zhijie Yan,
Jingren Zhou, Chang Zhou
- Abstract要約: マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
- 参考スコア(独自算出の注目度): 75.12948999653338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel multi-modal multi-task encoder-decoder
pre-training framework (MMSpeech) for Mandarin automatic speech recognition
(ASR), which employs both unlabeled speech and text data. The main difficulty
in speech-text joint pre-training comes from the significant difference between
speech and text modalities, especially for Mandarin speech and text. Unlike
English and other languages with an alphabetic writing system, Mandarin uses an
ideographic writing system where character and sound are not tightly mapped to
one another. Therefore, we propose to introduce the phoneme modality into
pre-training, which can help capture modality-invariant information between
Mandarin speech and text. Specifically, we employ a multi-task learning
framework including five self-supervised and supervised tasks with speech and
text data. For end-to-end pre-training, we introduce self-supervised
speech-to-pseudo-codes (S2C) and phoneme-to-text (P2T) tasks utilizing
unlabeled speech and text data, where speech-pseudo-codes pairs and
phoneme-text pairs are a supplement to the supervised speech-text pairs. To
train the encoder to learn better speech representation, we introduce
self-supervised masked speech prediction (MSP) and supervised phoneme
prediction (PP) tasks to learn to map speech into phonemes. Besides, we
directly add the downstream supervised speech-to-text (S2T) task into the
pre-training process, which can further improve the pre-training performance
and achieve better recognition results even without fine-tuning. Experiments on
AISHELL-1 show that our proposed method achieves state-of-the-art performance,
with a more than 40% relative improvement compared with other pre-training
methods.
- Abstract(参考訳): 本稿では,マンダリン自動音声認識(ASR)のためのマルチモーダル・マルチタスク・エンコーダ・デコーダ事前学習フレームワーク(MMSpeech)を提案する。
音声-テキスト合同事前学習の主な難点は、特にマンダリン語とテキストにおいて、音声とテキストのモーダリティが著しく異なることによる。
英語や他のアルファベット表記の言語とは異なり、マンダリンはイデオロギーによる表記システムを用いており、文字と音は互いに密にマッピングされていない。
そこで本研究では,マンダリン音声とテキストのモーダリティ不変な情報を取り込むために,事前学習に音素モーダリティを導入することを提案する。
具体的には,音声とテキストデータを用いた5つの自己教師ありタスクを含むマルチタスク学習フレームワークを採用する。
エンドツーエンドの事前学習には,教師なし音声とテキストデータを用いた自己教師付き音声合成符号 (s2c) と音素対テキスト処理 (p2t) を導入する。
符号化器を訓練してより優れた音声表現を学ぶために,自己教師付きマスク音声予測(msp)と教師付き音素予測(pp)タスクを導入し,音声を音素にマッピングする学習を行う。
さらに、事前学習プロセスに下流教師あり音声テキスト(S2T)タスクを直接追加し、事前学習性能をさらに向上させ、微調整をせずに認識結果を改善する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
関連論文リスト
- Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。