論文の概要: SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2509.01200v1
- Date: Mon, 01 Sep 2025 07:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.578787
- Title: SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation
- Title(参考訳): SimulMEGA: MoE ルータは同時音声翻訳のための高度なポリシーメーカー
- Authors: Chenyang Le, Bing Han, Jinshun Li, Songyong Chen, Yanmin Qian,
- Abstract要約: SimulSTは、音声認識と機械翻訳を厳密なレイテンシ制約の下で共同で最適化することで、リアルタイムの言語間通信を可能にする。
我々は、プレフィックスベースのトレーニングとMixture-of-Expertsリファラを組み合わせた教師なしのポリシー学習フレームワークであるSimulMEGAを紹介し、効果的な読み書き判断を学習する。
- 参考スコア(独自算出の注目度): 41.64909735021069
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Simultaneous Speech Translation (SimulST) enables real-time cross-lingual communication by jointly optimizing speech recognition and machine translation under strict latency constraints. Existing systems struggle to balance translation quality, latency, and semantic coherence, particularly in multilingual many-to-many scenarios where divergent read and write policies hinder unified strategy learning. In this paper, we present SimulMEGA (Simultaneous Generation by Mixture-of-Experts Gating), an unsupervised policy learning framework that combines prefix-based training with a Mixture-of-Experts refiner to learn effective read and write decisions in an implicit manner, without adding inference-time overhead. Our design requires only minimal modifications to standard transformer architectures and generalizes across both speech-to-text and text-to-speech streaming tasks. Through comprehensive evaluation on six language pairs, our 500M parameter speech-to-text model outperforms the Seamless baseline, achieving under 7 percent BLEU degradation at 1.5 seconds average lag and under 3 percent at 3 seconds. We further demonstrate the versatility of SimulMEGA by extending it to streaming TTS with a unidirectional backbone, yielding superior latency quality tradeoffs.
- Abstract(参考訳): 同時音声翻訳(SimulST)は、音声認識と機械翻訳を厳密なレイテンシ制約の下で協調的に最適化することにより、リアルタイムの言語間通信を可能にする。
既存のシステムは、翻訳品質、レイテンシ、セマンティックコヒーレンスのバランスをとるのに苦労している。
本稿では、プレフィックスベースのトレーニングとMixture-of-Expertsリファラを組み合わせた教師なしのポリシー学習フレームワークであるSimulMEGA(Simultaneous Generation by Mixture-of-Experts Gating)を提案する。
我々の設計では、標準トランスフォーマーアーキテクチャへの最小限の変更しか必要とせず、音声テキストと音声音声ストリーミングの両方のタスクを一般化する。
6つの言語対に関する総合的な評価により、500Mパラメータの音声-テキストモデルはSeamlessベースラインよりも優れ、平均1.5秒で7%のBLEU劣化、平均3秒で3%の劣化を達成した。
さらに、SimulMEGAを一方向のバックボーンでストリーミングTSに拡張することで、より優れたレイテンシ品質トレードオフを実現することで、汎用性を実証する。
関連論文リスト
- Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice [52.747242157396315]
同時解釈 (SI) は、翻訳業界における最強のフロンティアの1つである。
Seed-LiveInterpret 2.0は、音声のクローン機能を備えた高忠実で低レイテンシな音声音声合成を実現するエンドツーエンドのSIモデルである。
論文 参考訳(メタデータ) (2025-07-23T14:07:41Z) - MLLP-VRAIN UPV system for the IWSLT 2025 Simultaneous Speech Translation Translation task [7.247809853198223]
本研究は,IWSLT 2025 同時音声翻訳トラックの共有作業におけるMLLP-VRAIN研究グループの参加について述べる。
本論文は, 長期音声のリアルタイム翻訳における特異な課題を, モジュラーカスケードシステムの構築によって解決するものである。
論文 参考訳(メタデータ) (2025-06-23T16:44:01Z) - Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture [14.056534007451763]
同時音声翻訳(SimulST)は、部分的な音声入力を処理しながら段階的に翻訳を生成する。
既存のLLMベースのSimulSTアプローチは、双方向音声エンコーダの繰り返し符号化による計算オーバーヘッドが大きい。
完全一方向アーキテクチャを用いた効率・適応同時音声翻訳(EASiST)を提案する。
論文 参考訳(メタデータ) (2025-04-16T06:46:15Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Shiftable Context: Addressing Training-Inference Context Mismatch in
Simultaneous Speech Translation [0.17188280334580192]
セグメントベース処理を用いたトランスフォーマーモデルは、同時音声翻訳に有効なアーキテクチャである。
トレーニングと推論を通じて一貫したセグメントとコンテキストサイズを確実に維持するために、シフト可能なコンテキストを提案する。
論文 参考訳(メタデータ) (2023-07-03T22:11:51Z) - Decision Attentive Regularization to Improve Simultaneous Speech
Translation Systems [12.152208198444182]
SimulSTシステムでは、音声を部分入力を用いてタンデムで変換する。
近年,オフライン領域における音声翻訳(ST)の性能向上のために,テキスト翻訳タスクの活用が試みられている。
これらの改良により,モノトニック・マルチヘッド・アテンション(MMA)に基づくSimulSTシステムにDAR(Decision Attentive Regularization)を追加することを提案する。
論文 参考訳(メタデータ) (2021-10-13T08:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。