論文の概要: Jointly Trained Transformers models for Spoken Language Translation
- arxiv url: http://arxiv.org/abs/2004.12111v1
- Date: Sat, 25 Apr 2020 11:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 22:11:42.911323
- Title: Jointly Trained Transformers models for Spoken Language Translation
- Title(参考訳): 音声翻訳のための共同学習型トランスフォーマーモデル
- Authors: Hari Krishna Vydana, Martin Karafi'at, Katerina Zmolikova, Luk'as
Burget, Honza Cernocky
- Abstract要約: この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
- 参考スコア(独自算出の注目度): 2.3886615435250302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional spoken language translation (SLT) systems are pipeline based
systems, where we have an Automatic Speech Recognition (ASR) system to convert
the modality of source from speech to text and a Machine Translation (MT)
systems to translate source text to text in target language. Recent progress in
the sequence-sequence architectures have reduced the performance gap between
the pipeline based SLT systems (cascaded ASR-MT) and End-to-End approaches.
Though End-to-End and cascaded ASR-MT systems are reaching to the comparable
levels of performances, we can see a large performance gap using the ASR
hypothesis and oracle text w.r.t MT models. This performance gap indicates that
the MT systems are prone to large performance degradation due to noisy ASR
hypothesis as opposed to oracle text transcript. In this work this degradation
in the performance is reduced by creating an end to-end differentiable pipeline
between the ASR and MT systems. In this work, we train SLT systems with ASR
objective as an auxiliary loss and both the networks are connected through the
neural hidden representations. This train ing would have an End-to-End
differentiable path w.r.t to the final objective function as well as utilize
the ASR objective for better performance of the SLT systems. This architecture
has improved from BLEU from 36.8 to 44.5. Due to the Multi-task training the
model also generates the ASR hypothesis which are used by a pre-trained MT
model. Combining the proposed systems with the MT model has increased the BLEU
score by 1. All the experiments are reported on English-Portuguese speech
translation task using How2 corpus. The final BLEU score is on-par with the
best speech translation system on How2 dataset with no additional training data
and language model and much less parameters.
- Abstract(参考訳): 従来のsltシステムはパイプラインベースのシステムであり、音声からテキストへのソースのモーダリティを変換する自動音声認識(asr)システムと、対象言語でソーステキストをテキストに変換する機械翻訳(mt)システムがある。
シーケンスシーケンスアーキテクチャの最近の進歩は、パイプラインベースのSLTシステム(ASR-MT)とEnd-to-Endアプローチのパフォーマンスギャップを減らしている。
エンド・ツー・エンド(End-to-End)およびカスケードされたASR-MTシステムは同等の性能に到達しているが、ASR仮説とオラクルテキストw.r.t MTモデルを用いて大きなパフォーマンスギャップを見ることができる。
この性能差は、MTシステムは、オラクルテキストの書き起こしとは対照的に、ノイズの多いASR仮説による大きな性能劣化の傾向を示す。
本研究では、ASRとMTシステム間のエンドツーエンドの差別化可能なパイプラインを作成することにより、この性能劣化を低減させる。
本研究では,asr目的のsltシステムを補助損失として訓練し,両ネットワークはニューラルネットワークの隠れ表現を介して接続される。
この列車ingは最終目的関数への終端から終端の微分可能な経路 w.r.t を持ち、sltシステムの性能向上のためにasr目標を利用する。
このアーキテクチャは bleu から 36.8 から 44.5 に改善された。
マルチタスクトレーニングのため、モデルはまた、事前訓練されたmtモデルによって使用されるasr仮説を生成する。
提案したシステムとMTモデルを組み合わせることで,BLEUスコアは1。
全実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告する。
最後のBLEUスコアは、How2データセット上の最高の音声翻訳システムと同等であり、追加のトレーニングデータと言語モデルがなく、パラメータもはるかに少ない。
関連論文リスト
- Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - On the Relevance of Phoneme Duration Variability of Synthesized Training
Data for Automatic Speech Recognition [0.552480439325792]
合成データの時間構造とASRトレーニングとの関係に着目した。
本研究では, 合成データ品質の劣化が, 非自己回帰性TSの持続時間モデルにどの程度影響されているかを示す。
簡単なアルゴリズムを用いて,TTSシステムの音素持続時間分布を実時間に近づける。
論文 参考訳(メタデータ) (2023-10-12T08:45:21Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - The IWSLT 2021 BUT Speech Translation Systems [2.4373900721120285]
BUTの英語からドイツ語へのオフライン音声翻訳システム(ST)は、IWSLT 2021向けに開発された。
これらは共同で訓練された音声認識・機械翻訳モデルに基づいている。
それらの性能はMustC-Commonテストセットで評価される。
論文 参考訳(メタデータ) (2021-07-13T15:11:18Z) - A Technical Report: BUT Speech Translation Systems [2.9327503320877457]
本稿では,BUTの音声翻訳システムについて述べる。
システムは英語$longrightarrow$Germanのオフライン音声翻訳システムである。
オラクル入力テキストと比較して、ASR仮説を翻訳する際には、大きな劣化が観察される。
論文 参考訳(メタデータ) (2020-10-22T10:52:31Z) - Cascaded Models With Cyclic Feedback For Direct Speech Translation [14.839931533868176]
本稿では,自動音声認識(ASR)と機械翻訳(MT)のカスケードを用いて,ドメイン内直接音声翻訳データを活用する手法を提案する。
同一アーキテクチャと同一データのコンポーネントを用いたエンドツーエンドの音声翻訳と比較すると、LibriVoxDeEnでは最大3.8 BLEU点、ドイツ語と英語の音声翻訳ではCoVoSTでは最大5.1 BLEU点が得られた。
論文 参考訳(メタデータ) (2020-10-21T17:18:51Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。