論文の概要: Simultaneous Translation with Offline Speech and LLM Models in CUNI Submission to IWSLT 2025
- arxiv url: http://arxiv.org/abs/2506.17077v1
- Date: Fri, 20 Jun 2025 15:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.511779
- Title: Simultaneous Translation with Offline Speech and LLM Models in CUNI Submission to IWSLT 2025
- Title(参考訳): IWSLT 2025へのCUNI送信におけるオフライン音声とLLMモデル同時翻訳
- Authors: Dominik Macháček, Peter Polák,
- Abstract要約: 本稿では,チャールズ大学におけるIWSLT 2025の同時音声翻訳課題について述べる。
直接またはカスケードアプローチで、4つの言語ペアをすべてカバーしています。
私たちのシステムのバックボーンはオフラインのWhisper音声モデルで、最先端のAlignAttと同時処理モードで翻訳と転写の両方に使用しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes Charles University submission to the Simultaneous Speech Translation Task of the IWSLT 2025. We cover all four language pairs with a direct or cascade approach. The backbone of our systems is the offline Whisper speech model, which we use for both translation and transcription in simultaneous mode with the state-of-the-art simultaneous policy AlignAtt. We further improve the performance by prompting to inject in-domain terminology, and we accommodate context. Our cascaded systems further use EuroLLM for unbounded simultaneous translation. Compared to the Organizers' baseline, our systems improve by 2 BLEU points on Czech to English and 13-22 BLEU points on English to German, Chinese and Japanese on the development sets. Additionally, we also propose a new enhanced measure of speech recognition latency.
- Abstract(参考訳): 本稿では,チャールズ大学におけるIWSLT 2025の同時音声翻訳課題について述べる。
直接またはカスケードアプローチで、4つの言語ペアをすべてカバーしています。
私たちのシステムのバックボーンはオフラインのWhisper音声モデルで、最先端のAlignAttと同時処理モードで翻訳と転写の両方に使用しています。
我々は、ドメイン内の用語を注入するよう促すことにより、パフォーマンスをさらに改善し、コンテキストに適合する。
ケースドシステムはさらにEuroLLMを非有界同時翻訳に使用しています。
機関の基準と比較すると,チェコ語から英語へのBLEU点数2点,英語からドイツ語,中国語,日本語へのBLEU点数13-22点に改善されている。
また,音声認識遅延の新たな拡張尺度も提案する。
関連論文リスト
- KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025 [56.61209412965054]
本稿では、カールスルーエ工科大学のオフラインSTとインストラクションフォロー(IF)トラックへの提出について紹介する。
文書レベルの文脈を持つLLMを用いて出力を融合した複数の自動音声認識システムを用いたパイプラインを提案する。
IFトラックでは,音声エンコーダとLLMを統合し,幅広い命令追従タスクを実行するエンド・ツー・エンド・モデルを開発した。
論文 参考訳(メタデータ) (2025-05-19T12:21:29Z) - CMU's IWSLT 2024 Simultaneous Speech Translation System [80.15755988907506]
本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
論文 参考訳(メタデータ) (2024-08-14T10:44:51Z) - NAIST Simultaneous Speech Translation System for IWSLT 2024 [18.77311658086372]
本稿では,IWSLT 2024評価キャンペーンの同時進行に対するNAISTの提出について述べる。
We developed a multilingual end-to-end speech-to-text translation model with two-trained language model, HuBERT and mBART。
私たちはこのモデルを、ローカルアグリーメント(LA)とAlignAttという2つのデコードポリシでトレーニングしました。
音声から音声への変換法は,上述した音声からテキストへの変換モデルのカスケードであり,TTSモジュールをインクリメンタルに生成する。
論文 参考訳(メタデータ) (2024-06-30T20:41:02Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - Decision Attentive Regularization to Improve Simultaneous Speech
Translation Systems [12.152208198444182]
SimulSTシステムでは、音声を部分入力を用いてタンデムで変換する。
近年,オフライン領域における音声翻訳(ST)の性能向上のために,テキスト翻訳タスクの活用が試みられている。
これらの改良により,モノトニック・マルチヘッド・アテンション(MMA)に基づくSimulSTシステムにDAR(Decision Attentive Regularization)を追加することを提案する。
論文 参考訳(メタデータ) (2021-10-13T08:33:31Z) - CUNI systems for WMT21: Multilingual Low-Resource Translation for
Indo-European Languages Shared Task [0.0]
複数の類似言語ペアに対してジョイントモデルを使用することで,各ペアの翻訳品質が向上することを示す。
また,チャララクタレベルのバイリンガルモデルと非常に類似した言語対が競合することを示す。
論文 参考訳(メタデータ) (2021-09-20T08:10:39Z) - The Volctrans Neural Speech Translation System for IWSLT 2021 [26.058205594318405]
本稿では,Volctrans チームが IWSLT 2021 に提出したシステムについて述べる。
オフライン音声翻訳では,ベンチマークよりも8.1 BLEUの改善を実現している。
テキスト間同時翻訳では,wait-kモデルを最適化する最善の方法を検討する。
論文 参考訳(メタデータ) (2021-05-16T00:11:59Z) - ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation
Challenge Tasks at IWSLT 2020 [25.024259342365934]
ON-TRACコンソーシアムは、フランスの3つの学術研究所の研究者で構成されている。
学習したエンドツーエンドのアテンションベースエンコーダデコーダモデルを用いて、オフライン音声翻訳トラックへの提案を行った。
同時音声翻訳トラックでは,テキスト・トゥ・テキスト・サブタスクのための Transformer ベースのwait-k モデルを構築している。
論文 参考訳(メタデータ) (2020-05-24T23:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。