論文の概要: MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation
- arxiv url: http://arxiv.org/abs/2010.11445v2
- Date: Mon, 8 Feb 2021 20:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:33:57.218715
- Title: MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation
- Title(参考訳): MAM: エンドツーエンド音声テキスト翻訳のためのマスケッド音響モデル
- Authors: Junkun Chen, Mingbo Ma, Renjie Zheng, Liang Huang
- Abstract要約: 本稿では,音声側のみで自己教師型で頑健な音声エンコーダを学習する手法を提案する。
Masked Acoustic Modeling (MAM) と呼ばれるこの技術は、E2E-STを改善する代替ソリューションを提供するだけでなく、任意の音響信号に対して事前学習を行うこともできる。
書き起こしを一切使わずに設定すると,MAM予習による+1.1BLEU,+2.3BLEUの平均的改善が達成される。
- 参考スコア(独自算出の注目度): 27.19320167337675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Speech-to-text Translation (E2E-ST), which directly translates
source language speech to target language text, is widely useful in practice,
but traditional cascaded approaches (ASR+MT) often suffer from error
propagation in the pipeline. On the other hand, existing end-to-end solutions
heavily depend on the source language transcriptions for pre-training or
multi-task training with Automatic Speech Recognition (ASR). We instead propose
a simple technique to learn a robust speech encoder in a self-supervised
fashion only on the speech side, which can utilize speech data without
transcription. This technique termed Masked Acoustic Modeling (MAM), not only
provides an alternative solution to improving E2E-ST, but also can perform
pre-training on any acoustic signals (including non-speech ones) without
annotation. We conduct our experiments over 8 different translation directions.
In the setting without using any transcriptions, our technique achieves an
average improvement of +1.1 BLEU, and +2.3 BLEU with MAM pre-training.
Pre-training of MAM with arbitrary acoustic signals also has an average
improvement with +1.6 BLEU for those languages. Compared with ASR multi-task
learning solution, which replies on transcription during training, our
pre-trained MAM model, which does not use transcription, achieves similar
accuracy.
- Abstract(参考訳): E2E-ST(End-to-end Speech-to-text Translation)は、ソース言語音声を直接ターゲット言語テキストに翻訳する手法であるが、従来のカスケードアプローチ(ASR+MT)はパイプライン内のエラーの伝播に悩まされることが多い。
一方で、既存のエンドツーエンドソリューションは、自動音声認識(asr)による事前学習やマルチタスクトレーニングのためのソース言語書き起こしに大きく依存している。
そこで本研究では,音声の書き起こしを必要とせず,音声データを活用した自己教師あり方式でロバストな音声符号化を学習する手法を提案する。
この手法はMasked Acoustic Modeling (MAM)と呼ばれ、E2E-STを改善する代替ソリューションを提供するだけでなく、アノテーションなしで任意の音響信号(非音声信号を含む)に対して事前学習を行うこともできる。
我々は8つの異なる翻訳方向で実験を行う。
書き起こしを使わずに設定すると,mamプリトレーニングによる+1.1 bleu,+2.3 bleuの平均改善が達成される。
任意の音響信号によるMAMの事前学習も、これらの言語に対して+1.6 BLEUで平均的に改善されている。
トレーニング中に書き起こしに応答するASRマルチタスク学習ソリューションと比べ, 書き起こしを使わない事前学習型MAMモデルでは, 同様の精度が得られている。
関連論文リスト
- Acquiring Pronunciation Knowledge from Transcribed Speech Audio via Multi-task Learning [23.907448315388294]
マルチタスク学習(MTL)に基づく追加訓練源として書き起こし音声を利用する方法を提案する。
実験の結果, ベースラインMTL法と比較して, MTL法ではPERを2.5%から1.6%に削減できることがわかった。
論文 参考訳(メタデータ) (2024-09-15T23:00:54Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Monolingual Recognizers Fusion for Code-switching Speech Recognition [43.38810173824711]
CS ASRのための単言語認識器融合法を提案する。
言語認知ステージと言語融合ステージの2つのステージがある。
マンダリン・イングリッシュコーパスの実験では,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-11-02T11:24:26Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。