論文の概要: Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders
- arxiv url: http://arxiv.org/abs/2105.05752v1
- Date: Wed, 12 May 2021 16:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:18:05.130423
- Title: Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders
- Title(参考訳): 積層音響・テキスト符号化:事前学習されたモデルを音声翻訳エンコーダに統合する
- Authors: Chen Xu, Bojie Hu, Yanyang Li, Yuhao Zhang, shen huang, Qi Ju, Tong
Xiao, Jingbo Zhu
- Abstract要約: エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
- 参考スコア(独自算出の注目度): 30.160261563657947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoder pre-training is promising in end-to-end Speech Translation (ST),
given the fact that speech-to-translation data is scarce. But ST encoders are
not simple instances of Automatic Speech Recognition (ASR) or Machine
Translation (MT) encoders. For example, we find ASR encoders lack the global
context representation, which is necessary for translation, whereas MT encoders
are not designed to deal with long but locally attentive acoustic sequences. In
this work, we propose a Stacked Acoustic-and-Textual Encoding (SATE) method for
speech translation. Our encoder begins with processing the acoustic sequence as
usual, but later behaves more like an MT encoder for a global representation of
the input sequence. In this way, it is straightforward to incorporate the
pre-trained models into the system. Also, we develop an adaptor module to
alleviate the representation inconsistency between the pre-trained ASR encoder
and MT encoder, and a multi-teacher knowledge distillation method to preserve
the pre-training knowledge. Experimental results on the LibriSpeech En-Fr and
MuST-C En-De show that our method achieves the state-of-the-art performance of
18.3 and 25.2 BLEU points. To our knowledge, we are the first to develop an
end-to-end ST system that achieves comparable or even better BLEU performance
than the cascaded ST counterpart when large-scale ASR and MT data is available.
- Abstract(参考訳): 音声翻訳データが少ないことから,エンコーダ事前学習はエンドツーエンド音声翻訳(ST)において有望である。
しかし、stエンコーダは自動音声認識(asr)や機械翻訳(mt)エンコーダの単純な例ではない。
例えば、ASRエンコーダには翻訳に必要な大域的文脈表現がないのに対し、MTエンコーダは長大だが局所的な音響シーケンスを扱うように設計されていない。
本研究では,音声翻訳のための重畳音響・テキスト符号化手法を提案する。
我々のエンコーダは、通常通り音響シーケンスを処理することから始まり、後に入力シーケンスのグローバル表現のためのMTエンコーダのように振る舞う。
このように、事前訓練されたモデルをシステムに組み込むのは簡単です。
また,事前学習したASRエンコーダとMTエンコーダとの整合性を緩和する適応モジュールと,事前学習した知識を保存するための多教師知識蒸留法を開発する。
LibriSpeech En-Fr と MuST-C En-De の実験結果から,本手法が18.3 と 25.2 のBLEU 点の最先端性能を実現することが示された。
我々の知る限り、我々は、大規模なASRおよびMTデータが利用可能である場合に、カスケードSTと同等またはそれ以上のBLEU性能を達成するエンドツーエンドSTシステムを開発した最初の人である。
関連論文リスト
- Alignment-Free Training for Transducer-based Multi-Talker ASR [55.1234384771616]
マルチストーカーRNNT(MT-RNNT)は、フロントエンドのソース分離を犠牲にすることなく、認識を実現することを目的としている。
本稿では,MT-RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)のアライメントフリートレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:58:11Z) - Hybrid Transducer and Attention based Encoder-Decoder Modeling for
Speech-to-Text Tasks [28.440232737011453]
そこで本稿では,Transducer と Attention based AED-Decoder (TAED) を組み合わせることで,音声からテキストへ変換する手法を提案する。
本手法は,Transducerのストリーミング特性を維持しつつ,非単調シーケンスにおけるTransducerの強度をシーケンス学習に活用する。
提案手法をtextscMuST-C データセットで評価し,TAED が Transducer よりもオフライン自動音声認識(ASR) や 音声からテキストへの変換(ST) 処理に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-04T18:34:50Z) - Linguistic-Enhanced Transformer with CTC Embedding for Speech
Recognition [29.1423215212174]
関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている
本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。
AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
論文 参考訳(メタデータ) (2022-10-25T08:12:59Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - ConvFiT: Conversational Fine-Tuning of Pretrained Language Models [42.7160113690317]
大規模なテキストコレクションに事前訓練されたトランスフォーマーベース言語モデル(LM)は、豊富なセマンティック知識を保存できることが証明されている。
本稿では,任意の事前学習したLMをユニバーサルな会話エンコーダに変換する,シンプルで効率的な2段階の手順であるConvFiTを提案する。
論文 参考訳(メタデータ) (2021-09-21T12:16:56Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。