論文の概要: BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge
- arxiv url: http://arxiv.org/abs/2101.12729v1
- Date: Fri, 29 Jan 2021 18:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 15:16:19.059010
- Title: BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge
- Title(参考訳): BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge
- Authors: Martin Kocour, Guillermo C\'ambara, Jordi Luque, David Bonet, Mireia
Farr\'us, Martin Karafi\'at, Karel Vesel\'y and Jan ''Honza'' \^Cernock\'y
- Abstract要約: 本稿では,BUTとTelef'onicaによる音声認識システムの開発における共同研究について述べる。
ハイブリッドモデルとエンドツーエンドモデルの両方に基づいたアプローチを比較する。
最高のシステムの融合は、アルバイジン2020の公式評価で23.33%のWERを達成した。
- 参考スコア(独自算出の注目度): 2.675158177232256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes joint effort of BUT and Telef\'onica Research on
development of Automatic Speech Recognition systems for Albayzin 2020
Challenge. We compare approaches based on either hybrid or end-to-end models.
In hybrid modelling, we explore the impact of SpecAugment layer on performance.
For end-to-end modelling, we used a convolutional neural network with gated
linear units (GLUs). The performance of such model is also evaluated with an
additional n-gram language model to improve word error rates. We further
inspect source separation methods to extract speech from noisy environment
(i.e. TV shows). More precisely, we assess the effect of using a neural-based
music separator named Demucs. A fusion of our best systems achieved 23.33% WER
in official Albayzin 2020 evaluations. Aside from techniques used in our final
submitted systems, we also describe our efforts in retrieving high quality
transcripts for training.
- Abstract(参考訳): 本論文では,BUTとTelef\'onica ResearchのAlbayzin 2020 Challengeのための自動音声認識システムの開発に関する共同作業について述べる。
ハイブリッドモデルまたはエンドツーエンドモデルに基づくアプローチを比較します。
ハイブリッドモデリングでは,仕様層が性能に与える影響について検討する。
エンドツーエンドモデリングでは,ゲート線形単位(GLU)を持つ畳み込みニューラルネットワークを用いた。
また, 単語誤り率を改善するため, 追加のn-gram言語モデルを用いて評価を行った。
さらに,雑音環境から音声を抽出する音源分離手法について検討する。
テレビ番組)。
より正確には、demucsという神経ベースの音楽分離器の使用の効果を評価する。
最高のシステムの融合は、アルバイジン2020の公式評価で23.33%のWERを達成した。
最終提出されたシステムで使用される技術とは別に、トレーニングのために高品質な書き起こしを検索する取り組みについても述べます。
関連論文リスト
- From Modular to End-to-End Speaker Diarization [3.079020586262228]
本稿では、VBxとして知られるxベクトル(ニューラルネットワークで得られた話者埋め込み)をクラスタリングするために使用されるベイズ隠れマルコフモデルに基づくシステムについて述べる。
本稿では,話者の旋回や重なり合いの観点から,実際の会話に類似した合成データを生成する手法について述べる。
本稿では,この「模擬会話」生成手法が,一般的なEENDのトレーニングにおいて,従来提案されていた「模擬混合」生成方法よりも優れた性能を実現する方法を示す。
論文 参考訳(メタデータ) (2024-06-27T15:09:39Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Dialogue-Contextualized Re-ranking for Medical History-Taking [5.039849340960835]
本稿では,第1段階の質問候補を再ランク付けすることで,トレーニングと推論のギャップを埋める2段階の再ランク付け手法を提案する。
専門家システムと比較して,提案するトランスフォーマーバックボーンを用いたグローバルリランカにより,最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-04T17:31:32Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。