論文の概要: Curriculum Pre-training for End-to-End Speech Translation
- arxiv url: http://arxiv.org/abs/2004.10093v1
- Date: Tue, 21 Apr 2020 15:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 07:34:32.692577
- Title: Curriculum Pre-training for End-to-End Speech Translation
- Title(参考訳): エンドツーエンド音声翻訳のためのカリキュラム事前学習
- Authors: Chengyi Wang, Yu Wu, Shujie Liu, Ming Zhou and Zhenglu Yang
- Abstract要約: 本稿では,2つの言語における発話と単語のマッピングを理解するための,書き起こし学習の初等科目と2つの先進科目を含むカリキュラム事前学習手法を提案する。
実験の結果,カリキュラム事前学習手法は,En-De と En-Fr の音声翻訳ベンチマークを大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 51.53031035374276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech translation poses a heavy burden on the encoder, because it
has to transcribe, understand, and learn cross-lingual semantics
simultaneously. To obtain a powerful encoder, traditional methods pre-train it
on ASR data to capture speech features. However, we argue that pre-training the
encoder only through simple speech recognition is not enough and high-level
linguistic knowledge should be considered. Inspired by this, we propose a
curriculum pre-training method that includes an elementary course for
transcription learning and two advanced courses for understanding the utterance
and mapping words in two languages. The difficulty of these courses is
gradually increasing. Experiments show that our curriculum pre-training method
leads to significant improvements on En-De and En-Fr speech translation
benchmarks.
- Abstract(参考訳): エンドツーエンドの音声翻訳は、言語間意味論を同時に書き起こし、理解し、学習する必要があるため、エンコーダに大きな負担を負う。
強力なエンコーダを得るには、従来のASRデータで事前訓練して音声特徴をキャプチャする。
しかし,コーダの事前学習は音声認識だけでは不十分であり,高度な言語知識も考慮すべきである。
そこで本研究では,2つの言語における単語の発話とマッピングを理解するための,初等科目と2つの上級科目を含むカリキュラム事前学習手法を提案する。
これらのコースの難しさは徐々に増している。
実験の結果,カリキュラム事前学習手法は,En-De と En-Fr の音声翻訳ベンチマークを大幅に改善することがわかった。
関連論文リスト
- Unveiling the Role of Pretraining in Direct Speech Translation [14.584351239812394]
我々は,事前学習エンコーダを用いたシステムのトレーニング力学,従来のアプローチ,スクラッチからトレーニングしたシステムを比較した。
学習を通して、ランダムモデルがその予測のために音声入力からの情報を組み込むのに苦労していることを観察する。
本稿では,デコーダのクロスアテンションを微妙に変化させ,トレーニングの初期の段階からソース情報を統合することを提案する。
論文 参考訳(メタデータ) (2024-09-26T16:46:46Z) - Gujarati-English Code-Switching Speech Recognition using ensemble
prediction of spoken language [29.058108207186816]
マルチヘッドアテンション機構において,言語固有のパラメータと説明可能性を導入する2つの手法を提案する。
WERを著しく削減できないにもかかわらず、本手法は音声データから正しい言語を予測することを約束している。
論文 参考訳(メタデータ) (2024-03-12T18:21:20Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。