論文の概要: End-to-end Speech Translation via Cross-modal Progressive Training
- arxiv url: http://arxiv.org/abs/2104.10380v1
- Date: Wed, 21 Apr 2021 06:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-04-22 14:28:39.374383
- Title: End-to-end Speech Translation via Cross-modal Progressive Training
- Title(参考訳): クロスモーダルプログレッシブトレーニングによるエンドツーエンド音声翻訳
- Authors: Rong Ye, Mingxuan Wang, Lei Li
- Abstract要約: Cross Speech-Text Network (XSTNet) は、音声からテキストへの翻訳のためのエンドツーエンドモデルである。
xstnetは音声とテキストの両方を入力とし、転写と翻訳の両方のテキストを出力する。
XSTNet は、平均 BLEU が 27.8 である3つの言語方向の最先端の結果を達成し、以前のベストメソッドを 3.7 BLEU で上回っている。
- 参考スコア(独自算出の注目度): 12.916100727707809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech translation models have become a new trend in the research
due to their potential of reducing error propagation. However, these models
still suffer from the challenge of data scarcity. How to effectively make use
of unlabeled or other parallel corpora from machine translation is promising
but still an open problem. In this paper, we propose Cross Speech-Text Network
(XSTNet), an end-to-end model for speech-to-text translation. XSTNet takes both
speech and text as input and outputs both transcription and translation text.
The model benefits from its three key design aspects: a self supervising
pre-trained sub-network as the audio encoder, a multi-task training objective
to exploit additional parallel bilingual text, and a progressive training
procedure. We evaluate the performance of XSTNet and baselines on the MuST-C
En-De/Fr/Ru datasets. XSTNet achieves state-of-the-art results on all three
language directions with an average BLEU of 27.8, outperforming the previous
best method by 3.7 BLEU. The code and the models will be released to the
public.
- Abstract(参考訳): エンドツーエンドの音声翻訳モデルは、誤りの伝播を減少させる可能性から、研究の新たなトレンドとなっている。
しかし、これらのモデルはまだデータの不足という課題に苦しんでいる。
機械翻訳から無ラベルや他の並列コーパスを効果的に利用する方法は有望だが、まだ未解決の問題である。
本稿では,テキスト翻訳のエンドツーエンドモデルであるCross Speech-Text Network (XSTNet)を提案する。
xstnetは音声とテキストの両方を入力とし、転写と翻訳の両方のテキストを出力する。
このモデルは、オーディオエンコーダとして訓練済みの自己監視サブネットワーク、追加の並列バイリンガルテキストを活用するマルチタスクトレーニング目標、プログレッシブトレーニング手順の3つの主要な設計面から恩恵を受ける。
我々はXSTNetの性能と MuST-C En-De/Fr/Ru データセットのベースラインを評価する。
XSTNet は、平均 BLEU が 27.8 である3つの言語方向の最先端の結果を達成し、以前のベストメソッドを 3.7 BLEU で上回っている。
コードとモデルは一般公開される予定だ。
関連論文リスト
- Improving speech translation by fusing speech and text [24.31233927318388]
異なるモダリティである音声とテキストの相補的な長所を利用する。
textbfFuse-textbfSpeech-textbfText (textbfFST)を提案する。
論文 参考訳(メタデータ) (2023-05-23T13:13:48Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。