論文の概要: FST: the FAIR Speech Translation System for the IWSLT21 Multilingual
Shared Task
- arxiv url: http://arxiv.org/abs/2107.06959v1
- Date: Wed, 14 Jul 2021 19:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 13:54:38.077637
- Title: FST: the FAIR Speech Translation System for the IWSLT21 Multilingual
Shared Task
- Title(参考訳): FST: IWSLT21多言語共有タスクのためのFAIR音声翻訳システム
- Authors: Yun Tang, Hongyu Gong, Xian Li, Changhan Wang, Juan Pino, Holger
Schwenk, Naman Goyal
- Abstract要約: IWSLT 2021評価キャンペーンに提出したエンドツーエンドの多言語音声翻訳システムについて述べる。
本システムは,モダリティ,タスク,言語間の伝達学習を活用して構築する。
- 参考スコア(独自算出の注目度): 36.51221186190272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe our end-to-end multilingual speech translation
system submitted to the IWSLT 2021 evaluation campaign on the Multilingual
Speech Translation shared task. Our system is built by leveraging transfer
learning across modalities, tasks and languages. First, we leverage
general-purpose multilingual modules pretrained with large amounts of
unlabelled and labelled data. We further enable knowledge transfer from the
text task to the speech task by training two tasks jointly. Finally, our
multilingual model is finetuned on speech translation task-specific data to
achieve the best translation results. Experimental results show our system
outperforms the reported systems, including both end-to-end and cascaded based
approaches, by a large margin.
In some translation directions, our speech translation results evaluated on
the public Multilingual TEDx test set are even comparable with the ones from a
strong text-to-text translation system, which uses the oracle speech
transcripts as input.
- Abstract(参考訳): 本稿では,多言語音声翻訳共有タスクについて,iwslt 2021評価キャンペーンに提出した多言語音声翻訳システムについて述べる。
我々のシステムは、モダリティ、タスク、言語間の伝達学習を活用して構築されている。
まず,大量のラベル付きデータで事前訓練された汎用多言語モジュールを利用する。
さらに,テキストタスクから音声タスクへの知識伝達を,共同で2つのタスクを訓練することで実現する。
最後に,音声翻訳タスク固有のデータに基づいて多言語モデルを微調整し,最良翻訳結果を得る。
実験の結果,エンド・ツー・エンドとカスケード・ベースの両方の手法が報告されたシステムよりも高いマージンを示した。
いくつかの翻訳方向では,公的な多言語TEDxテストセットで評価された音声翻訳結果は,オラクル音声の書き起こしを入力として用いた強いテキストからテキストへの翻訳システムと同等である。
関連論文リスト
- Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Back-translation for Large-Scale Multilingual Machine Translation [2.8747398859585376]
本稿では,多言語間の共通表現がより優れた多言語翻訳性能をもたらすという仮説を用いて,単一の多言語翻訳システムを構築することを目的とする。
我々は、バイリンガル翻訳から多言語翻訳まで、さまざまなバック翻訳手法の探索を拡大する。
驚いたことに、語彙の小さい方がパフォーマンスが良くなり、モノリンガルの英語データも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-17T18:33:15Z) - ViTA: Visual-Linguistic Translation by Aligning Object Tags [7.817598216459955]
マルチモーダル機械翻訳(Multimodal Machine Translation、MMT)は、翻訳のための視覚情報でソーステキストを豊かにする。
本稿では,WAT 2021の多モーダル翻訳タスクを英語からヒンディー語に翻訳するシステムを提案する。
論文 参考訳(メタデータ) (2021-06-01T06:19:29Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual
Word-in-Context Disambiguation using Augmented Data, Signals, and
Transformers [1.869621561196521]
我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。
目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。
多言語とクロスリンガルの両方の設定のためのシステムを提出します。
論文 参考訳(メタデータ) (2021-04-04T08:49:28Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。