論文の概要: SimulSeamless: FBK at IWSLT 2024 Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2406.14177v1
- Date: Thu, 20 Jun 2024 10:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:21:16.559351
- Title: SimulSeamless: FBK at IWSLT 2024 Simultaneous Speech Translation
- Title(参考訳): SimulSeamless: FBK - IWSLT 2024 同時音声翻訳
- Authors: Sara Papi, Marco Gaido, Matteo Negri, Luisa Bentivogli,
- Abstract要約: 本稿では,IWSLT 2024におけるFBKの同時翻訳評価キャンペーンへの参加について述べる。
SeamlessM4T モデルは "off-the-shelf" として使用され、その同時推論は AlignAtt の採用によって実現される。
Simul Seamlessは143のソース言語と200のターゲット言語をカバーする。
- 参考スコア(独自算出の注目度): 23.75894159181602
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper describes the FBK's participation in the Simultaneous Translation Evaluation Campaign at IWSLT 2024. For this year's submission in the speech-to-text translation (ST) sub-track, we propose SimulSeamless, which is realized by combining AlignAtt and SeamlessM4T in its medium configuration. The SeamlessM4T model is used "off-the-shelf" and its simultaneous inference is enabled through the adoption of AlignAtt, a SimulST policy based on cross-attention that can be applied without any retraining or adaptation of the underlying model for the simultaneous task. We participated in all the Shared Task languages (English->{German, Japanese, Chinese}, and Czech->English), achieving acceptable or even better results compared to last year's submissions. SimulSeamless, covering more than 143 source languages and 200 target languages, is released at: https://github.com/hlt-mt/FBK-fairseq/.
- Abstract(参考訳): 本稿では,IWSLT 2024におけるFBKの同時翻訳評価キャンペーンへの参加について述べる。
そこで本研究では,AlignAttとSeamlessM4Tを中間構成で組み合わせたSimulSeamlessを提案する。
SeamlessM4T モデルは "off-the-shelf" として使用され、その同時推論は AlignAtt を採用して実現されている。
我々は,昨年提出したものと比較して,すべての共有タスク言語(英語→{ドイツ語,日本語,中国語,チェコ語,チェコ語)に参加し,受け入れられ,さらに良好な結果を得た。
SimulSeamlessは143以上のソース言語と200以上のターゲット言語をカバーするもので、https://github.com/hlt-mt/FBK-fairseq/でリリースされた。
関連論文リスト
- CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - NAIST Simultaneous Speech Translation System for IWSLT 2024 [18.77311658086372]
本稿では,IWSLT 2024評価キャンペーンの同時進行に対するNAISTの提出について述べる。
We developed a multilingual end-to-end speech-to-text translation model with two-trained language model, HuBERT and mBART。
私たちはこのモデルを、ローカルアグリーメント(LA)とAlignAttという2つのデコードポリシでトレーニングしました。
音声から音声への変換法は,上述した音声からテキストへの変換モデルのカスケードであり,TTSモジュールをインクリメンタルに生成する。
論文 参考訳(メタデータ) (2024-06-30T20:41:02Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - A Twitter BERT Approach for Offensive Language Detection in Marathi [0.7874708385247353]
本稿では,低リソースな言語であるMarathiにおける攻撃的言語識別に関する研究について述べる。
本分類課題では,ソーシャルメディアデータセットで事前学習したBERTモデルに着目し,単言語モデルと多言語BERTモデルの比較を行った。
BERTモデルであるMahaTweetBERTは、組み合わせデータセット(HASOC 2021 + HASOC 2022 + MahaHate)で微調整されたマラタイのツイートで事前訓練され、HASOC 2022テストセットでF1スコア98.43で全てのモデルを上回っている。
論文 参考訳(メタデータ) (2022-12-20T07:22:45Z) - TSMind: Alibaba and Soochow University's Submission to the WMT22
Translation Suggestion Task [16.986003476984965]
本稿では,Alibaba と Soochow 大学 TSMind の WMT 2022 Shared Task on Translation Suggestion への共同提出について述べる。
基本的に、大規模な事前学習モデルに基づいて、下流タスクを微調整するモデルパラダイムを利用する。
トレーニングデータの限られた使用状況を考えると,WeTSが提案するデータ拡張戦略に従えば,TSモデルの性能が向上する。
論文 参考訳(メタデータ) (2022-11-16T15:43:31Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。