論文の概要: An Empirical Study of Consistency Regularization for End-to-End
Speech-to-Text Translation
- arxiv url: http://arxiv.org/abs/2308.14482v1
- Date: Mon, 28 Aug 2023 10:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:20:41.659415
- Title: An Empirical Study of Consistency Regularization for End-to-End
Speech-to-Text Translation
- Title(参考訳): エンドツーエンド音声テキスト翻訳における一貫性規則化の実証的研究
- Authors: Pengzhi Gao, Ruiqing Zhang, Zhongjun He, Hua Wu, Haifeng Wang
- Abstract要約: 我々は,E2E STにおけるSimRegCRとSimZeroCRの2つのトレーニング戦略を提案する。
MuST-Cベンチマーク実験により,本手法は翻訳方向のSOTA(State-of-the-art)性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 45.34270177755258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistency regularization methods, such as R-Drop (Liang et al., 2021) and
CrossConST (Gao et al., 2023), have achieved impressive supervised and
zero-shot performance in the neural machine translation (NMT) field. Can we
also boost end-to-end (E2E) speech-to-text translation (ST) by leveraging
consistency regularization? In this paper, we conduct empirical studies on
intra-modal and cross-modal consistency and propose two training strategies,
SimRegCR and SimZeroCR, for E2E ST in regular and zero-shot scenarios.
Experiments on the MuST-C benchmark show that our approaches achieve
state-of-the-art (SOTA) performance in most translation directions. The
analyses prove that regularization brought by the intra-modal consistency,
instead of modality gap, is crucial for the regular E2E ST, and the cross-modal
consistency could close the modality gap and boost the zero-shot E2E ST
performance.
- Abstract(参考訳): R-Drop(Liang et al., 2021)やCrossConST(Gao et al., 2023)のような一貫性正規化手法は、ニューラルネットワーク翻訳(NMT)分野において、目覚ましい教師付きおよびゼロショットのパフォーマンスを達成した。
整合性正規化を利用して、エンドツーエンド(E2E)音声テキスト翻訳(ST)を向上できるだろうか?
本稿では,モード内およびクロスモーダル間の一貫性に関する実証研究を行い,e2e stのsimregcrとsimzerocrの2つのトレーニング戦略を提案する。
MuST-Cベンチマーク実験により,本手法はほとんどの翻訳方向において最先端(SOTA)性能を実現することが示された。
解析により,モード間整合性による正則化は標準E2E STにとって重要であり,クロスモーダル整合性はモダリティギャップを閉鎖し,ゼロショットE2E STの性能を高めることができることが示された。
関連論文リスト
- CoT-ST: Enhancing LLM-based Speech Translation with Multimodal Chain-of-Thought [33.32415197728357]
音声言語モデル(SLM)は,音声翻訳タスクにおいて印象的な性能を示した。
本研究では,SLMのチェーン・オブ・シークレット機能を活性化する3段階のトレーニングフレームワークを提案する。
本稿では,マルチモーダルCoTを用いた音声翻訳モデルであるCoT-STを提案する。
論文 参考訳(メタデータ) (2024-09-29T01:48:09Z) - Context Consistency between Training and Testing in Simultaneous Machine
Translation [46.38890241793453]
同時機械翻訳(SiMT)は、ソース側コンテキストを単調に拡張したリアルタイム部分翻訳を実現することを目的としている。
トレーニングとテストの間のコンテキスト使用に関して、直感的な現象があります。
そこで我々は,文脈整合性学習と呼ばれる効果的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T04:11:32Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Improving Zero-shot Multilingual Neural Machine Translation by
Leveraging Cross-lingual Consistency Regularization [46.09132547431629]
多言語ニューラルマシン翻訳(NMT)モデルは、ゼロショット翻訳の有望な能力を有する。
本稿では,異なる言語間の表現ギャップを埋めるために,言語間整合性正規化(CrossConST)を提案する。
論文 参考訳(メタデータ) (2023-05-12T08:32:18Z) - Data-Driven Adaptive Simultaneous Machine Translation [51.01779863078624]
適応型SimulMTのための新しい,効率的なトレーニング手法を提案する。
本手法は,翻訳の質やレイテンシという点で,全ての強靭なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-04-27T02:40:21Z) - Leveraging unsupervised and weakly-supervised data to improve direct
speech-to-speech translation [32.24706553793383]
中間的なテキスト表現に依存しない音声音声翻訳(S2ST)は、急速に研究のフロンティアになりつつある。
近年の研究では、このような直接S2STシステムの性能が、同等のデータセットでトレーニングされた場合、従来のカスケードS2STシステムに近づいていることが示されている。
本研究では,トランスラトトロン2に基づく直接S2STの性能向上のために,より広く利用可能な教師なし・弱教師付き音声・テキストデータを活用するための複数のアプローチについて検討する。
論文 参考訳(メタデータ) (2022-03-24T21:06:15Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。