論文の概要: KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization
- arxiv url: http://arxiv.org/abs/2505.19679v1
- Date: Mon, 26 May 2025 08:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.284727
- Title: KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization
- Title(参考訳): IWSLT2025のためのKITの低リソース音声翻訳システム:合成データとモデル正規化によるシステム拡張
- Authors: Zhaolin Li, Yining Liu, Danni Liu, Tuan Nam Nguyen, Enes Yavuz Ugan, Tu Anh Dinh, Carlos Mullov, Alexander Waibel, Jan Niehues,
- Abstract要約: 本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
- 参考スコア(独自算出の注目度): 57.08591486199925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents KIT's submissions to the IWSLT 2025 low-resource track. We develop both cascaded systems, consisting of Automatic Speech Recognition (ASR) and Machine Translation (MT) models, and end-to-end (E2E) Speech Translation (ST) systems for three language pairs: Bemba, North Levantine Arabic, and Tunisian Arabic into English. Building upon pre-trained models, we fine-tune our systems with different strategies to utilize resources efficiently. This study further explores system enhancement with synthetic data and model regularization. Specifically, we investigate MT-augmented ST by generating translations from ASR data using MT models. For North Levantine, which lacks parallel ST training data, a system trained solely on synthetic data slightly surpasses the cascaded system trained on real data. We also explore augmentation using text-to-speech models by generating synthetic speech from MT data, demonstrating the benefits of synthetic data in improving both ASR and ST performance for Bemba. Additionally, we apply intra-distillation to enhance model performance. Our experiments show that this approach consistently improves results across ASR, MT, and ST tasks, as well as across different pre-trained models. Finally, we apply Minimum Bayes Risk decoding to combine the cascaded and end-to-end systems, achieving an improvement of approximately 1.5 BLEU points.
- Abstract(参考訳): 本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
本研究では,自動音声認識(ASR)モデルと機械翻訳(MT)モデルと,ベンバ語,北レバンタ語,チュニジア語という3つの言語対を対象としたエンドツーエンド(E2E)音声翻訳(ST)システムの両方を開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
そこで本研究では,合成データを用いたシステム拡張とモデル正規化について検討する。
具体的には、MTモデルを用いて、ASRデータから翻訳を生成することでMT拡張STについて検討する。
並列STトレーニングデータがないNorth Levantineにとって、合成データのみにトレーニングされたシステムは、実際のデータでトレーニングされたカスケードシステムよりわずかに多い。
また、MTデータから合成音声を生成することで、テキスト音声モデルによる拡張について検討し、ベンバのASRおよびST性能を改善する上で、合成データの利点を実証する。
さらに, モデル性能を向上させるため, 蒸留法を適用した。
実験の結果,本手法はASR,MT,STタスク,および事前学習されたモデル間で連続的に結果を改善できることが示唆された。
最後に,最小ベイズリスクデコーディングを適用し,ケースドシステムとエンド・ツー・エンドシステムを組み合わせることで,約1.5BLEUポイントの改善を実現する。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset [10.119929769316565]
この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
この研究は、徹底的な技術分析を通じて、TTSの最先端のモデル伝達学習能力を評価する。
その後、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオンの実験分析を行う。
論文 参考訳(メタデータ) (2023-10-08T03:08:25Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - The IWSLT 2021 BUT Speech Translation Systems [2.4373900721120285]
BUTの英語からドイツ語へのオフライン音声翻訳システム(ST)は、IWSLT 2021向けに開発された。
これらは共同で訓練された音声認識・機械翻訳モデルに基づいている。
それらの性能はMustC-Commonテストセットで評価される。
論文 参考訳(メタデータ) (2021-07-13T15:11:18Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。