論文の概要: GMU Systems for the IWSLT 2025 Low-Resource Speech Translation Shared Task
- arxiv url: http://arxiv.org/abs/2505.21781v1
- Date: Tue, 27 May 2025 21:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.301085
- Title: GMU Systems for the IWSLT 2025 Low-Resource Speech Translation Shared Task
- Title(参考訳): IWSLT 2025低リソース音声翻訳共有タスクのためのGMUシステム
- Authors: Chutong Meng, Antonios Anastasopoulos,
- Abstract要約: レバンタ語を除き、すべての言語ペアのシステムを訓練しました。
自動音声認識(ASR)、機械翻訳(MT)、エンドツーエンド音声翻訳(E2E ST)のためのSeamlessM4T-v2を微調整した。
- 参考スコア(独自算出の注目度): 25.14323991105875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the GMU systems for the IWSLT 2025 low-resource speech translation shared task. We trained systems for all language pairs, except for Levantine Arabic. We fine-tuned SeamlessM4T-v2 for automatic speech recognition (ASR), machine translation (MT), and end-to-end speech translation (E2E ST). The ASR and MT models are also used to form cascaded ST systems. Additionally, we explored various training paradigms for E2E ST fine-tuning, including direct E2E fine-tuning, multi-task training, and parameter initialization using components from fine-tuned ASR and/or MT models. Our results show that (1) direct E2E fine-tuning yields strong results; (2) initializing with a fine-tuned ASR encoder improves ST performance on languages SeamlessM4T-v2 has not been trained on; (3) multi-task training can be slightly helpful.
- Abstract(参考訳): 本稿では,低リソース音声翻訳共有タスクIWSLT 2025におけるGMUシステムについて述べる。
レバンタ語を除き、すべての言語ペアのシステムを訓練しました。
自動音声認識(ASR)、機械翻訳(MT)、エンドツーエンド音声翻訳(E2E ST)のためのSeamlessM4T-v2を微調整した。
ASRおよびMTモデルは、カスケードSTシステムを形成するためにも使用される。
さらに、直列E2Eファインチューニング、マルチタスクトレーニング、パラメータ初期化など、E2E STファインチューニングのための様々なトレーニングパラダイムを、微調整されたASRモデルやMTモデルからのコンポーネントを用いて検討した。
その結果,(1) 直接E2Eファインチューニングは強い結果をもたらすこと,(2) 微調整ASRエンコーダを初期化することで,SeamlessM4T-v2 が訓練されていない言語での ST 性能が向上すること,(3) マルチタスクトレーニングが少し役立つこと,などが判明した。
関連論文リスト
- KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - The IWSLT 2021 BUT Speech Translation Systems [2.4373900721120285]
BUTの英語からドイツ語へのオフライン音声翻訳システム(ST)は、IWSLT 2021向けに開発された。
これらは共同で訓練された音声認識・機械翻訳モデルに基づいている。
それらの性能はMustC-Commonテストセットで評価される。
論文 参考訳(メタデータ) (2021-07-13T15:11:18Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。