論文の概要: Regularizing End-to-End Speech Translation with Triangular Decomposition
Agreement
- arxiv url: http://arxiv.org/abs/2112.10991v1
- Date: Tue, 21 Dec 2021 05:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:48:21.667281
- Title: Regularizing End-to-End Speech Translation with Triangular Decomposition
Agreement
- Title(参考訳): 三角形分解契約による終端音声の正規化
- Authors: Yichao Du, Zhirui Zhang, Weizhi Wang, Boxing Chen, Jun Xie, Tong Xu
- Abstract要約: 本稿では,三重項データにおける二経路分解の整合性を改善するためのモデルトレーニングのための新しい正規化手法を提案する。
MuST-Cベンチマーク実験により,提案手法は最先端のE2E-STベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 27.87144563354033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech-to-text translation~(E2E-ST) is becoming increasingly
popular due to the potential of its less error propagation, lower latency, and
fewer parameters. Given the triplet training corpus $\langle speech,
transcription, translation\rangle$, the conventional high-quality E2E-ST system
leverages the $\langle speech, transcription\rangle$ pair to pre-train the
model and then utilizes the $\langle speech, translation\rangle$ pair to
optimize it further. However, this process only involves two-tuple data at each
stage, and this loose coupling fails to fully exploit the association between
triplet data. In this paper, we attempt to model the joint probability of
transcription and translation based on the speech input to directly leverage
such triplet data. Based on that, we propose a novel regularization method for
model training to improve the agreement of dual-path decomposition within
triplet data, which should be equal in theory. To achieve this goal, we
introduce two Kullback-Leibler divergence regularization terms into the model
training objective to reduce the mismatch between output probabilities of
dual-path. Then the well-trained model can be naturally transformed as the
E2E-ST models by the pre-defined early stop tag. Experiments on the MuST-C
benchmark demonstrate that our proposed approach significantly outperforms
state-of-the-art E2E-ST baselines on all 8 language pairs, while achieving
better performance in the automatic speech recognition task. Our code is
open-sourced at https://github.com/duyichao/E2E-ST-TDA.
- Abstract(参考訳): E2E-ST(End-to-end speech-to-text translation)は、エラーの伝播の低減、レイテンシの低減、パラメータの削減などにより人気が高まっている。
従来の高品質なE2E-STシステムは、$\langle Speech, transcription, translation\rangle$という三重項訓練コーパスを前提に、$\langle Speech, transcription\rangle$というペアを使ってモデルを事前訓練する。
しかし、このプロセスは各段階で2タプルのデータのみを伴い、この疎結合は三重項データ間の関係を完全に活用することができない。
本稿では,これらの三重項データを直接活用するために,音声入力に基づく書き起こしと翻訳の同時確率をモデル化する。
そこで本研究では,三重項データにおける二経路分解の整合性を改善するためのモデルトレーニングの新しい正規化手法を提案する。
この目的を達成するために,2つのKullback-Leibler分散正規化項をモデル学習目標に導入し,二重パスの出力確率間のミスマッチを低減する。
すると、よく訓練されたモデルは、事前に定義された早期停止タグによってE2E-STモデルとして自然に変換できる。
MuST-Cベンチマーク実験により,提案手法は8つの言語対すべてにおいて最先端のE2E-STベースラインを大幅に上回り,音声認識タスクでは性能が向上することを示した。
私たちのコードはhttps://github.com/duyichao/e2e-st-tdaでオープンソースです。
関連論文リスト
- Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - End-to-end Speech Translation via Cross-modal Progressive Training [12.916100727707809]
Cross Speech-Text Network (XSTNet) は、音声からテキストへの翻訳のためのエンドツーエンドモデルである。
xstnetは音声とテキストの両方を入力とし、転写と翻訳の両方のテキストを出力する。
XSTNet は、平均 BLEU が 27.8 である3つの言語方向の最先端の結果を達成し、以前のベストメソッドを 3.7 BLEU で上回っている。
論文 参考訳(メタデータ) (2021-04-21T06:44:31Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - Unsupervised Pretraining for Neural Machine Translation Using Elastic
Weight Consolidation [0.0]
本研究は、ニューラルネットワーク翻訳における教師なし事前訓練(NMT)の現在進行中の研究を提示する。
本研究では,モノリンガルデータを用いて学習した2つの言語モデルを用いて,エンコーダとデコーダの重み付けを初期化する。
両方向のNMTエンコーダを左から右への言語モデルで初期化し、元の左から右への言語モデリングタスクを記憶させることで、エンコーダの学習能力が制限されることを示す。
論文 参考訳(メタデータ) (2020-10-19T11:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。