論文の概要: The IWSLT 2021 BUT Speech Translation Systems
- arxiv url: http://arxiv.org/abs/2107.06155v1
- Date: Tue, 13 Jul 2021 15:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 17:47:31.478590
- Title: The IWSLT 2021 BUT Speech Translation Systems
- Title(参考訳): IWSLT 2021 BUT音声翻訳システム
- Authors: Hari Krishna Vydana, Martin Karafi'at, Luk'as Burget, "Honza"
Cernock'y
- Abstract要約: BUTの英語からドイツ語へのオフライン音声翻訳システム(ST)は、IWSLT 2021向けに開発された。
これらは共同で訓練された音声認識・機械翻訳モデルに基づいている。
それらの性能はMustC-Commonテストセットで評価される。
- 参考スコア(独自算出の注目度): 2.4373900721120285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper describes BUT's English to German offline speech translation(ST)
systems developed for IWSLT2021. They are based on jointly trained Automatic
Speech Recognition-Machine Translation models. Their performances is evaluated
on MustC-Common test set. In this work, we study their efficiency from the
perspective of having a large amount of separate ASR training data and MT
training data, and a smaller amount of speech-translation training data. Large
amounts of ASR and MT training data are utilized for pre-training the ASR and
MT models. Speech-translation data is used to jointly optimize ASR-MT models by
defining an end-to-end differentiable path from speech to translations. For
this purpose, we use the internal continuous representations from the
ASR-decoder as the input to MT module. We show that speech translation can be
further improved by training the ASR-decoder jointly with the MT-module using
large amount of text-only MT training data. We also show significant
improvements by training an ASR module capable of generating punctuated text,
rather than leaving the punctuation task to the MT module.
- Abstract(参考訳): 本稿では、IWSLT2021向けに開発されたBUTの音声翻訳システムについて述べる。
これらは、自動音声認識と機械翻訳を共同で訓練したモデルに基づいている。
それらの性能はMustC-Commonテストセットで評価される。
本研究では,ASR訓練データとMT訓練データとを分離し,音声翻訳訓練データが少ない観点から,それらの効率性について検討する。
ASRおよびMTモデルの事前訓練に大量のASRおよびMTトレーニングデータを利用する。
音声翻訳データを用いて、音声から翻訳へのエンドツーエンドの微分パスを定義することにより、ASR-MTモデルを協調的に最適化する。
本研究では,ASRデコーダの内部連続表現をMTモジュールへの入力として使用する。
テキストのみのMT学習データを用いて,ASRデコーダをMTモジュールと共同で訓練することにより,音声翻訳をさらに改善できることを示す。
また,句読点タスクをmtモジュールに残さずに,句読点テキストを生成可能なasrモジュールをトレーニングすることで,大幅に改善した。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - The HW-TSC's Offline Speech Translation Systems for IWSLT 2021
Evaluation [22.617563646374602]
本稿では,IWSLT-2021オフライン音声翻訳タスクの取り組みについて述べる。
本システムは,話者ダイアリゼーションモジュール,音声認識モジュール(ASR)モジュール,機械翻訳モジュール(MT)モジュールなど,カスケード形式で構築された。
本手法は2021年のテストセットで24.6 BLEUのスコアを得る。
論文 参考訳(メタデータ) (2021-08-09T07:28:04Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Machine Translation Customization via Automatic Training Data Selection
from the Web [97.98885151955467]
特定のドメインで機械翻訳システムをカスタマイズするためのアプローチについて説明します。
ターゲットとなる顧客データに似たデータを選択し、ニューラル翻訳モデルを訓練する。
最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
論文 参考訳(メタデータ) (2021-02-20T03:29:41Z) - A Technical Report: BUT Speech Translation Systems [2.9327503320877457]
本稿では,BUTの音声翻訳システムについて述べる。
システムは英語$longrightarrow$Germanのオフライン音声翻訳システムである。
オラクル入力テキストと比較して、ASR仮説を翻訳する際には、大きな劣化が観察される。
論文 参考訳(メタデータ) (2020-10-22T10:52:31Z) - Cascaded Models With Cyclic Feedback For Direct Speech Translation [14.839931533868176]
本稿では,自動音声認識(ASR)と機械翻訳(MT)のカスケードを用いて,ドメイン内直接音声翻訳データを活用する手法を提案する。
同一アーキテクチャと同一データのコンポーネントを用いたエンドツーエンドの音声翻訳と比較すると、LibriVoxDeEnでは最大3.8 BLEU点、ドイツ語と英語の音声翻訳ではCoVoSTでは最大5.1 BLEU点が得られた。
論文 参考訳(メタデータ) (2020-10-21T17:18:51Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。