論文の概要: BeaverTalk: Oregon State University's IWSLT 2025 Simultaneous Speech Translation System
- arxiv url: http://arxiv.org/abs/2505.24016v1
- Date: Thu, 29 May 2025 21:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.672062
- Title: BeaverTalk: Oregon State University's IWSLT 2025 Simultaneous Speech Translation System
- Title(参考訳): BeaverTalk:オレゴン州立大学のIWSLT 2025同時音声翻訳システム
- Authors: Matthew Raffel, Victor Agostinelli, Lizhong Chen,
- Abstract要約: BeaverTalkは、IWSLT 2025の同時翻訳タスクの一部として、音声からテキストへの翻訳を行うカスケードシステムである。
システムアーキテクチャでは、音声ストリームをセグメントに分割するためのVADセグメンタ、自動音声認識(ASR)のためのWhisper Large V2、同時翻訳のためのGemma 3 12Bが採用されている。
システムは低レイテンシと高レイテンシの両方の体制において、英語$rightarrow$Germanおよび英語$rightarrow$ Chinese language directionに参加した。
- 参考スコア(独自算出の注目度): 5.712277386555735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper discusses the construction, fine-tuning, and deployment of BeaverTalk, a cascaded system for speech-to-text translation as part of the IWSLT 2025 simultaneous translation task. The system architecture employs a VAD segmenter for breaking a speech stream into segments, Whisper Large V2 for automatic speech recognition (ASR), and Gemma 3 12B for simultaneous translation. Regarding the simultaneous translation LLM, it is fine-tuned via low-rank adaptors (LoRAs) for a conversational prompting strategy that leverages a single prior-sentence memory bank from the source language as context. The cascaded system participated in the English$\rightarrow$German and English$\rightarrow$Chinese language directions for both the low and high latency regimes. In particular, on the English$\rightarrow$German task, the system achieves a BLEU of 24.64 and 27.83 at a StreamLAAL of 1837.86 and 3343.73, respectively. Then, on the English$\rightarrow$Chinese task, the system achieves a BLEU of 34.07 and 37.23 at a StreamLAAL of 2216.99 and 3521.35, respectively.
- Abstract(参考訳): 本稿では,IWSLT 2025の同時翻訳タスクの一環として,音声からテキストへの翻訳を行うシステムであるBeaverTalkの構築,微調整,展開について論じる。
システムアーキテクチャでは、音声ストリームをセグメントに分割するためのVADセグメンタ、自動音声認識(ASR)のためのWhisper Large V2、同時翻訳のためのGemma 3 12Bを採用している。
同時翻訳LLMでは、ソース言語から1つの事前文メモリバンクをコンテキストとして活用する会話促進戦略として、ローランク適応器(LoRA)を介して微調整される。
カスケードシステムは低レイテンシと高レイテンシの両体制において、英語の$\rightarrow$Germanと英語の$\rightarrow$ Chineseの指示に参加した。
特に、英語の$\rightarrow$Germanタスクでは、それぞれ1837.86のStreamLAALと3343.73のBLEUで24.64と27.83のBLEUを達成する。
そして、英語の$\rightarrow$ Chineseタスクでは、それぞれ2216.99と3521.35のストリームLAALで、BLEU34.07と37.23を達成している。
関連論文リスト
- CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - UPC's Speech Translation System for IWSLT 2021 [2.099922236065961]
本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。
タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。
提案方式は,エンコーダとデコーダ間の結合モジュールと事前学習モデルを組み合わせた音声翻訳システムである。
論文 参考訳(メタデータ) (2021-05-10T17:04:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。