論文の概要: CMU's IWSLT 2025 Simultaneous Speech Translation System
- arxiv url: http://arxiv.org/abs/2506.13143v1
- Date: Mon, 16 Jun 2025 06:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.591677
- Title: CMU's IWSLT 2025 Simultaneous Speech Translation System
- Title(参考訳): CMUのIWSLT 2025同時音声翻訳システム
- Authors: Siqi Ouyang, Xi Xu, Lei Li,
- Abstract要約: 本稿では,CMU による IWSLT 2025 同時音声翻訳タスクの提出について述べる。
我々のエンドツーエンドの音声テキストシステムは、大まかに因果関係のWav2Vec 2.0音声エンコーダ、アダプタ、およびQwen2.5-7B-Instructをデコーダとして統合する。
実験の結果,英語-中国語で44.3BLEU,英語-ドイツ語で25.1BLEUを達成した。
- 参考スコア(独自算出の注目度): 10.40867923457809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents CMU's submission to the IWSLT 2025 Simultaneous Speech Translation (SST) task for translating unsegmented English speech into Chinese and German text in a streaming manner. Our end-to-end speech-to-text system integrates a chunkwise causal Wav2Vec 2.0 speech encoder, an adapter, and the Qwen2.5-7B-Instruct as the decoder. We use a two-stage simultaneous training procedure on robust speech segments curated from LibriSpeech, CommonVoice, and VoxPopuli datasets, utilizing standard cross-entropy loss. Our model supports adjustable latency through a configurable latency multiplier. Experimental results demonstrate that our system achieves 44.3 BLEU for English-to-Chinese and 25.1 BLEU for English-to-German translations on the ACL60/60 development set, with computation-aware latencies of 2.7 seconds and 2.3 seconds, and theoretical latencies of 2.2 and 1.7 seconds, respectively.
- Abstract(参考訳): 本稿では,CMU による IWSLT 2025 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
我々のエンドツーエンドの音声テキストシステムは、大まかに因果関係のWav2Vec 2.0音声エンコーダ、アダプタ、およびQwen2.5-7B-Instructをデコーダとして統合する。
We use a two-stage simultaneously training procedure on robust speech segments curated from LibriSpeech, CommonVoice, VoxPopuli datasets, using standard cross-entropy loss。
我々のモデルは、設定可能なレイテンシ乗算器を通して調整可能なレイテンシをサポートする。
実験の結果,ACL60/60における英語とドイツ語の翻訳では44.3 BLEU,ACL60/60では25.1 BLEUを実現しており,それぞれ2.7 秒と2.3 秒,理論的には2.2 秒,理論的には1.7 秒であった。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Learning When to Speak: Latency and Quality Trade-offs for Simultaneous
Speech-to-Speech Translation with Offline Models [18.34485337755259]
実世界のユースケースを対象とした同時S2STシステムを提案する。
出力のレイテンシを動的に調整するための調整可能なパラメータを用いて,57言語から英語への翻訳を支援する。
これらのポリシーは,Greedy(wait-$k$)ベースライン上でのレイテンシの増加を最小限に抑え,オフラインレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-06-01T23:29:23Z) - UPC's Speech Translation System for IWSLT 2021 [2.099922236065961]
本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。
タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。
提案方式は,エンコーダとデコーダ間の結合モジュールと事前学習モデルを組み合わせた音声翻訳システムである。
論文 参考訳(メタデータ) (2021-05-10T17:04:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。