論文の概要: A Technical Report: BUT Speech Translation Systems
- arxiv url: http://arxiv.org/abs/2010.11593v1
- Date: Thu, 22 Oct 2020 10:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:03:07.836811
- Title: A Technical Report: BUT Speech Translation Systems
- Title(参考訳): 技術報告:しかし音声翻訳システムは
- Authors: Hari Krishna Vydana, Lukas Burget, Jan Cernocky
- Abstract要約: 本稿では,BUTの音声翻訳システムについて述べる。
システムは英語$longrightarrow$Germanのオフライン音声翻訳システムである。
オラクル入力テキストと比較して、ASR仮説を翻訳する際には、大きな劣化が観察される。
- 参考スコア(独自算出の注目度): 2.9327503320877457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper describes the BUT's speech translation systems. The systems are
English$\longrightarrow$German offline speech translation systems. The systems
are based on our previous works \cite{Jointly_trained_transformers}. Though
End-to-End and cascade~(ASR-MT) spoken language translation~(SLT) systems are
reaching comparable performances, a large degradation is observed when
translating ASR hypothesis compared to the oracle input text. To reduce this
performance degradation, we have jointly-trained ASR and MT modules with ASR
objective as an auxiliary loss. Both the networks are connected through the
neural hidden representations. This model has an End-to-End differentiable path
with respect to the final objective function and also utilizes the ASR
objective for better optimization. During the inference both the modules(i.e.,
ASR and MT) are connected through the hidden representations corresponding to
the n-best hypotheses. Ensembling with independently trained ASR and MT models
have further improved the performance of the system.
- Abstract(参考訳): 本稿では,BUTの音声翻訳システムについて述べる。
システムは英語$\longrightarrow$Germanのオフライン音声翻訳システムである。
システムは、我々の以前の作品 \cite{Jointly_trained_transformers} に基づいている。
エンド・トゥ・エンドとカスケード〜(ASR-MT)音声言語翻訳〜(SLT)システムは同等の性能に達しているが、オラクル入力テキストと比較してASR仮説の翻訳では大きな劣化が見られる。
この性能劣化を抑えるため、補助損失としてASR目標とMTモジュールを共同訓練した。
両方のネットワークは、ニューラル隠れ表現を介して接続される。
このモデルは最終目的関数に関してエンドツーエンドの微分可能パスを持ち、最適化のためにasr目的も利用する。
推論の間、両方の加群(つまり ASR と MT)は、n-best の仮説に対応する隠された表現を通して接続される。
独立に訓練されたASRモデルとMTモデルを組み合わせることで、システムの性能がさらに向上した。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - The IWSLT 2021 BUT Speech Translation Systems [2.4373900721120285]
BUTの英語からドイツ語へのオフライン音声翻訳システム(ST)は、IWSLT 2021向けに開発された。
これらは共同で訓練された音声認識・機械翻訳モデルに基づいている。
それらの性能はMustC-Commonテストセットで評価される。
論文 参考訳(メタデータ) (2021-07-13T15:11:18Z) - Cascaded Models With Cyclic Feedback For Direct Speech Translation [14.839931533868176]
本稿では,自動音声認識(ASR)と機械翻訳(MT)のカスケードを用いて,ドメイン内直接音声翻訳データを活用する手法を提案する。
同一アーキテクチャと同一データのコンポーネントを用いたエンドツーエンドの音声翻訳と比較すると、LibriVoxDeEnでは最大3.8 BLEU点、ドイツ語と英語の音声翻訳ではCoVoSTでは最大5.1 BLEU点が得られた。
論文 参考訳(メタデータ) (2020-10-21T17:18:51Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。