論文の概要: ELITR Non-Native Speech Translation at IWSLT 2020
- arxiv url: http://arxiv.org/abs/2006.03331v1
- Date: Fri, 5 Jun 2020 09:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:53:36.530420
- Title: ELITR Non-Native Speech Translation at IWSLT 2020
- Title(参考訳): IWSLT 2020におけるELITR非負音声翻訳
- Authors: Dominik Mach\'a\v{c}ek, Jon\'a\v{s} Kratochv\'il, Sangeet Sagar,
Mat\'u\v{s} \v{Z}ilinec, Ond\v{r}ej Bojar, Thai-Son Nguyen, Felix Schneider,
Philip Williams, Yuekun Yao
- Abstract要約: 本稿では、オフラインASR、リアルタイムASR、オフラインSLTおよびリアルタイムSLTに対するケースドアプローチについて述べる。
我々は、既存のシステムから主要な候補を選び、新しいエンドツーエンドの汎用ASRシステムを開発し、非ネイティブ音声で訓練されたハイブリッドASRを開発した。
- 参考スコア(独自算出の注目度): 6.380342809204357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is an ELITR system submission for the non-native speech
translation task at IWSLT 2020. We describe systems for offline ASR, real-time
ASR, and our cascaded approach to offline SLT and real-time SLT. We select our
primary candidates from a pool of pre-existing systems, develop a new
end-to-end general ASR system, and a hybrid ASR trained on non-native speech.
The provided small validation set prevents us from carrying out a complex
validation, but we submit all the unselected candidates for contrastive
evaluation on the test set.
- Abstract(参考訳): 本稿では,IWSLT 2020における非ネイティブ音声翻訳タスクに対してERLITRシステムを提案する。
オフラインasr,リアルタイムasr,およびオフラインsltおよびリアルタイムsltへのカスケードアプローチについて述べる。
既存のシステムから予備候補を選び、新しいエンドツーエンドの汎用asrシステムを開発し、非ネイティブ音声で訓練したハイブリッドasrを開発した。
提供される小さな検証セットは、複雑な検証の実行を妨げますが、テストセットの対比評価のために、選択されていないすべての候補を提出します。
関連論文リスト
- A Zero-Shot Open-Vocabulary Pipeline for Dialogue Understanding [0.0]
ドメイン分類と状態追跡(DST)をひとつのパイプラインに統合するゼロショットオープン語彙システムを提案する。
我々のアプローチには、より能力の低いモデルに対する質問応答タスクとしてDSTを再構成し、より適応可能なモデルに自己修正プロンプトを採用することが含まれる。
論文 参考訳(メタデータ) (2024-09-24T08:33:41Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Improving Cross-lingual Representation for Semantic Retrieval with
Code-switching [35.54420336373573]
コードスイッチングによるSRのための代替言語間PTMを提案する。
我々は、コードスイッチング方式を初めて言語間SRに利用し、また、SRタスク上で直接 PTM を使用する代わりに、コードスイッチング型継続事前学習を導入する。
論文 参考訳(メタデータ) (2024-03-03T01:47:52Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Improving Low Resource Code-switched ASR using Augmented Code-switched
TTS [29.30430160611224]
近年,コードスイッチによる音声認識システムの構築が注目されている。
エンドツーエンドシステムは大量のラベル付き音声を必要とする。
絶対単語誤り率(WER)を最大5%まで低下させるASR性能の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-10-12T09:15:12Z) - The NTNU System at the Interspeech 2020 Non-Native Children's Speech ASR
Challenge [13.232899176888575]
本稿では,ISCAのSIG-ChiLDグループによって支援された,2020年の非Native Children's Speech ASR Challengeについて述べる。
すべての参加者は、主催者が提供した音声とテキストのコーパスに基づいてシステムを開発することを制限された。
そこで我々は,CNN-TDNNFをベースとした音響モデル上にASRシステムを構築した。
論文 参考訳(メタデータ) (2020-05-18T02:51:26Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。