論文の概要: KIT's Multilingual Speech Translation System for IWSLT 2023
- arxiv url: http://arxiv.org/abs/2306.05320v1
- Date: Thu, 8 Jun 2023 16:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:27:42.855285
- Title: KIT's Multilingual Speech Translation System for IWSLT 2023
- Title(参考訳): IWSLT 2023におけるKITの多言語音声翻訳システム
- Authors: Danni Liu, Thai Binh Nguyen, Sai Koneru, Enes Yavuz Ugan, Ngoc-Quan
Pham, Tuan-Nam Nguyen, Tu Anh Dinh, Carlos Mullov, Alexander Waibel, Jan
Niehues
- Abstract要約: IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
タスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 58.5152569458259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many existing speech translation benchmarks focus on native-English speech in
high-quality recording conditions, which often do not match the conditions in
real-life use-cases. In this paper, we describe our speech translation system
for the multilingual track of IWSLT 2023, which focuses on the translation of
scientific conference talks. The test condition features accented input speech
and terminology-dense contents. The tasks requires translation into 10
languages of varying amounts of resources. In absence of training data from the
target domain, we use a retrieval-based approach (kNN-MT) for effective
adaptation (+0.8 BLEU for speech translation). We also use adapters to easily
integrate incremental training data from data augmentation, and show that it
matches the performance of re-training. We observe that cascaded systems are
more easily adaptable towards specific target domains, due to their separate
modules. Our cascaded speech system substantially outperforms its end-to-end
counterpart on scientific talk translation, although their performance remains
similar on TED talks.
- Abstract(参考訳): 多くの既存の音声翻訳ベンチマークは、高品質な録音条件におけるネイティブ英語の音声に焦点を当てている。
本稿では,IWSLT 2023の多言語トラックにおける音声翻訳システムについて述べる。
テスト条件は、アクセント付き入力音声と用語読解内容を特徴とする。
様々なリソースを持つ10の言語に翻訳する必要がある。
対象ドメインからのトレーニングデータがない場合、音声翻訳に+0.8BLEUを有効適応するために検索ベースアプローチ(kNN-MT)を用いる。
また、データ拡張からインクリメンタルなトレーニングデータを簡単に統合するためにアダプタを使用し、再トレーニングのパフォーマンスにマッチしていることを示します。
ケースドシステムは、異なるモジュールによって特定のターゲットドメインに対してより容易に適応可能であることを観察する。
提案手法は, TEDトークとよく似ているが, 科学的な音声翻訳において, エンドツーエンドの音声システムよりもかなり優れている。
関連論文リスト
- NAIST Simultaneous Speech Translation System for IWSLT 2024 [18.77311658086372]
本稿では,IWSLT 2024評価キャンペーンの同時進行に対するNAISTの提出について述べる。
We developed a multilingual end-to-end speech-to-text translation model with two-trained language model, HuBERT and mBART。
私たちはこのモデルを、ローカルアグリーメント(LA)とAlignAttという2つのデコードポリシでトレーニングしました。
音声から音声への変換法は,上述した音声からテキストへの変換モデルのカスケードであり,TTSモジュールをインクリメンタルに生成する。
論文 参考訳(メタデータ) (2024-06-30T20:41:02Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - FST: the FAIR Speech Translation System for the IWSLT21 Multilingual
Shared Task [36.51221186190272]
IWSLT 2021評価キャンペーンに提出したエンドツーエンドの多言語音声翻訳システムについて述べる。
本システムは,モダリティ,タスク,言語間の伝達学習を活用して構築する。
論文 参考訳(メタデータ) (2021-07-14T19:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。