論文の概要: M3ST: Mix at Three Levels for Speech Translation
- arxiv url: http://arxiv.org/abs/2212.03657v1
- Date: Wed, 7 Dec 2022 14:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:51:13.673321
- Title: M3ST: Mix at Three Levels for Speech Translation
- Title(参考訳): M3ST:3レベル混合による音声翻訳
- Authors: Xuxin Cheng, Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang,
Yuexian Zou
- Abstract要約: 本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
- 参考スコア(独自算出の注目度): 66.71994367650461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to solve the data scarcity problem for end-to-end speech-to-text
translation (ST)? It's well known that data augmentation is an efficient method
to improve performance for many tasks by enlarging the dataset. In this paper,
we propose Mix at three levels for Speech Translation (M^3ST) method to
increase the diversity of the augmented training corpus. Specifically, we
conduct two phases of fine-tuning based on a pre-trained model using external
machine translation (MT) data. In the first stage of fine-tuning, we mix the
training corpus at three levels, including word level, sentence level and frame
level, and fine-tune the entire model with mixed data. At the second stage of
fine-tuning, we take both original speech sequences and original text sequences
in parallel into the model to fine-tune the network, and use Jensen-Shannon
divergence to regularize their outputs. Experiments on MuST-C speech
translation benchmark and analysis show that M^3ST outperforms current strong
baselines and achieves state-of-the-art results on eight directions with an
average BLEU of 29.9.
- Abstract(参考訳): エンドツーエンド音声テキスト翻訳(ST)におけるデータ不足の解決法
データ拡張は、データセットを拡張して多くのタスクのパフォーマンスを改善する効率的な方法であることがよく知られている。
本稿では,拡張学習コーパスの多様性を高めるために,音声翻訳法(m^3st)の3段階混合を提案する。
具体的には,外部機械翻訳(MT)データを用いた事前学習モデルに基づく2段階の微調整を行う。
微調整の第1段階では、トレーニングコーパスを単語レベル、文レベル、フレームレベルを含む3つのレベルで混合し、モデル全体を混合データで微調整する。
ファインチューニングの第2段階では、オリジナル音声シーケンスとオリジナルテキストシーケンスの両方を並列にモデルに取り込み、そのネットワークを微調整し、Jensen-Shannon分散を用いて出力を正規化する。
MuST-C音声翻訳ベンチマークと分析実験により、M^3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
関連論文リスト
- CoT-ST: Enhancing LLM-based Speech Translation with Multimodal Chain-of-Thought [33.32415197728357]
音声言語モデル(SLM)は,音声翻訳タスクにおいて印象的な性能を示した。
本研究では,SLMのチェーン・オブ・シークレット機能を活性化する3段階のトレーニングフレームワークを提案する。
本稿では,マルチモーダルCoTを用いた音声翻訳モデルであるCoT-STを提案する。
論文 参考訳(メタデータ) (2024-09-29T01:48:09Z) - Improving speech translation by fusing speech and text [24.31233927318388]
異なるモダリティである音声とテキストの相補的な長所を利用する。
textbfFuse-textbfSpeech-textbfText (textbfFST)を提案する。
論文 参考訳(メタデータ) (2023-05-23T13:13:48Z) - On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - STEMM: Self-learning with Speech-text Manifold Mixup for Speech
Translation [37.51435498386953]
本稿では,その差分を補正するSTEMM法を提案する。
MuST-C音声翻訳ベンチマークおよびさらなる解析実験により,本手法はモーダル表現の不一致を効果的に軽減することが示された。
論文 参考訳(メタデータ) (2022-03-20T01:49:53Z) - Regularizing End-to-End Speech Translation with Triangular Decomposition
Agreement [27.87144563354033]
本稿では,三重項データにおける二経路分解の整合性を改善するためのモデルトレーニングのための新しい正規化手法を提案する。
MuST-Cベンチマーク実験により,提案手法は最先端のE2E-STベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-12-21T05:24:01Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。