論文の概要: MLLP-VRAIN UPV system for the IWSLT 2025 Simultaneous Speech Translation Translation task
- arxiv url: http://arxiv.org/abs/2506.18828v1
- Date: Mon, 23 Jun 2025 16:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.089865
- Title: MLLP-VRAIN UPV system for the IWSLT 2025 Simultaneous Speech Translation Translation task
- Title(参考訳): IWSLT 2025同時音声翻訳タスクのためのMLLP-VRAIN UPVシステム
- Authors: Jorge Iranzo-Sánchez, Javier Iranzo-Sánchez, Adrià Giménez, Jorge Civera, Alfons Juan,
- Abstract要約: 本研究は,IWSLT 2025 同時音声翻訳トラックの共有作業におけるMLLP-VRAIN研究グループの参加について述べる。
本論文は, 長期音声のリアルタイム翻訳における特異な課題を, モジュラーカスケードシステムの構築によって解決するものである。
- 参考スコア(独自算出の注目度): 7.247809853198223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work describes the participation of the MLLP-VRAIN research group in the shared task of the IWSLT 2025 Simultaneous Speech Translation track. Our submission addresses the unique challenges of real-time translation of long-form speech by developing a modular cascade system that adapts strong pre-trained models to streaming scenarios. We combine Whisper Large-V3-Turbo for ASR with the multilingual NLLB-3.3B model for MT, implementing lightweight adaptation techniques rather than training new end-to-end models from scratch. Our approach employs document-level adaptation with prefix training to enhance the MT model's ability to handle incomplete inputs, while incorporating adaptive emission policies including a wait-$k$ strategy and RALCP for managing the translation stream. Specialized buffer management techniques and segmentation strategies ensure coherent translations across long audio sequences. Experimental results on the ACL60/60 dataset demonstrate that our system achieves a favorable balance between translation quality and latency, with a BLEU score of 31.96 and non-computational-aware StreamLAAL latency of 2.94 seconds. Our final model achieves a preliminary score on the official test set (IWSLT25Instruct) of 29.8 BLEU. Our work demonstrates that carefully adapted pre-trained components can create effective simultaneous translation systems for long-form content without requiring extensive in-domain parallel data or specialized end-to-end training.
- Abstract(参考訳): 本研究は,IWSLT 2025 同時音声翻訳トラックの共有作業におけるMLLP-VRAIN研究グループの参加について述べる。
提案手法は,学習済みの強いモデルをストリーミングシナリオに適応させるモジュール型カスケードシステムを開発することで,長文音声のリアルタイム翻訳の難しさに対処する。
我々は,ASR用Whisper Large-V3-TurboとMT用多言語NLLB-3.3Bモデルを組み合わせる。
提案手法では,文書レベルの適応とプレフィックストレーニングを併用し,MTモデルの不完全入力処理能力を向上させるとともに,wait-$k$戦略や翻訳ストリーム管理のALCPといった適応的エミッションポリシーを取り入れた。
特別なバッファ管理技術とセグメンテーション戦略により、長いオーディオシーケンス間のコヒーレントな翻訳が保証される。
ACL60/60データセットの実験結果から,BLEUスコア31.96,非計算型StreamLAALレイテンシ2.94秒で,翻訳品質とレイテンシのバランスが良好であることが確認された。
最終モデルは,29.8BLEUの公式テストセット(IWSLT25インストラクト)の予備スコアを達成した。
我々の研究は、事前訓練済みのコンポーネントが、広範囲のドメイン内並列データや専門的なエンドツーエンドのトレーニングを必要とせずに、より効果的な長文コンテンツ同時翻訳システムを構築することができることを示した。
関連論文リスト
- KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Beyond Vanilla Fine-Tuning: Leveraging Multistage, Multilingual, and Domain-Specific Methods for Low-Resource Machine Translation [1.9639956888747314]
本稿では,大規模言語モデル(msLLM)の適応のための2つのアプローチを提案することによって,人工知能に寄与する。
工学的な応用として、これらの手法は、ドメイン固有の極低リソース設定において、シンハラ、タミル、英語(6つの言語対)のNTTシステムで実装される。
実験の結果,これらの手法は,標準の単一段階微調整ベースラインに比べて平均+1.47バイリンガル評価アンダースタディ(BLEU)スコアで翻訳性能を向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T16:30:28Z) - X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、英語中心の事前学習と限定的な多言語データにより、様々なNLPタスクにおいて顕著な成功を収めている。
X-ALMA**は、50の多様な言語で最高のパフォーマンスを保証するために設計されたモデルです。
論文 参考訳(メタデータ) (2024-10-04T03:17:27Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - UPC's Speech Translation System for IWSLT 2021 [2.099922236065961]
本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。
タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。
提案方式は,エンコーダとデコーダ間の結合モジュールと事前学習モデルを組み合わせた音声翻訳システムである。
論文 参考訳(メタデータ) (2021-05-10T17:04:11Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。