論文の概要、ライセンス

# (参考訳) BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge [全文訳有]

BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge ( http://arxiv.org/abs/2101.12729v1 )

ライセンス: CC BY 4.0
Martin Kocour, Guillermo C\'ambara, Jordi Luque, David Bonet, Mireia Farr\'us, Martin Karafi\'at, Karel Vesel\'y and Jan ''Honza'' \^Cernock\'y(参考訳) 本論文では,BUTとTelef\'onica ResearchのAlbayzin 2020 Challengeのための自動音声認識システムの開発に関する共同作業について述べる。 ハイブリッドモデルまたはエンドツーエンドモデルに基づくアプローチを比較します。 ハイブリッドモデリングでは,仕様層が性能に与える影響について検討する。 エンドツーエンドモデリングでは,ゲート線形単位(GLU)を持つ畳み込みニューラルネットワークを用いた。 また, 単語誤り率を改善するため, 追加のn-gram言語モデルを用いて評価を行った。 さらに,雑音環境から音声を抽出する音源分離手法について検討する。 テレビ番組)。 より正確には、demucsという神経ベースの音楽分離器の使用の効果を評価する。 最高のシステムの融合は、アルバイジン2020の公式評価で23.33%のWERを達成した。 最終提出されたシステムで使用される技術とは別に、トレーニングのために高品質な書き起こしを検索する取り組みについても述べます。

This paper describes joint effort of BUT and Telef\'onica Research on development of Automatic Speech Recognition systems for Albayzin 2020 Challenge. We compare approaches based on either hybrid or end-to-end models. In hybrid modelling, we explore the impact of SpecAugment layer on performance. For end-to-end modelling, we used a convolutional neural network with gated linear units (GLUs). The performance of such model is also evaluated with an additional n-gram language model to improve word error rates. We further inspect source separation methods to extract speech from noisy environment (i.e. TV shows). More precisely, we assess the effect of using a neural-based music separator named Demucs. A fusion of our best systems achieved 23.33% WER in official Albayzin 2020 evaluations. Aside from techniques used in our final submitted systems, we also describe our efforts in retrieving high quality transcripts for training.
公開日: Fri, 29 Jan 2021 18:40:54 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge 0.98
Martin Kocour1, Guillermo C´ambara2,3, Jordi Luque2, David Bonet2, Mireia Farr´us4, Martin Kocour1, Guillermo C ́ambara2,3, Jordi Luque2, David Bonet2, Mireia Farr ́us4 0.72
Martin Karafi´at1, Karel Vesel´y1and Jan “Honza” ˇCernock´y1 Martin Karafi ́at1, Karel Vesel ́y1 and Jan “Honza” ^ Cernock ́y1 0.58
1Brno University of Technology, Speech@FIT, IT4I CoE 1Brno University of Technology, Speech@FIT, IT4I CoE 0.94
2Telef´onica Research 2telef onica research 0.61
3Universitat Pompeu Fabra 4Universitat de Barcelona 3Universitat Pompeu Fabra 4Universitat de Barcelona 0.92
ikocour@fit.vutbr.cz ikocour@fit.vutbr.cz 0.59
Abstract 2. Data 1 2 0 2 概要 2. データ 1 2 0 2 0.73
n a J 9 2 ] S A . n a J 9 2 ] S A。 0.80
s s e e [ 1 v 9 2 7 2 1 s s e [ 1 v 9 2 7 2 1 0.77
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
This paper describes joint effort of BUT and Telef´onica Research on development of Automatic Speech Recognition systems for Albayzin 2020 Challenge. 本稿では,BUTとTelef ́onica ResearchのAlbayzin 2020 Challengeのための自動音声認識システムの開発に関する共同研究について述べる。 0.71
We compare approaches based on either hybrid or end-to-end models. ハイブリッドモデルまたはエンドツーエンドモデルに基づくアプローチを比較します。 0.65
In hybrid modelling, we explore the impact of SpecAugment[1, 2] layer on performance. ハイブリッドモデリングでは,specaugment[1, 2]層がパフォーマンスに与える影響について検討する。 0.76
For end-to-end modelling, we used a convolutional neural network with gated linear units (GLUs). エンドツーエンドモデリングでは,ゲート線形単位(GLU)を持つ畳み込みニューラルネットワークを用いた。 0.76
The performance of such model is also evaluated with an additional ngram language model to improve word error rates. これらのモデルの性能は、単語誤り率を改善するために追加のngram言語モデルで評価される。 0.79
We further inspect source separation methods to extract speech from noisy environment (i.e. さらに,雑音環境から音声を抽出する音源分離手法について検討する。 0.68
TV shows). More precisely, we assess the effect of using a neural-based music separator named Demucs[3]. テレビ番組)。 より正確には、demucs[3]という神経ベースの音楽分離器の使用の効果を評価する。 0.69
A fusion of our best systems achieved 23.33 % WER in official Albayzin 2020 evaluations. ベストシステムの融合は、アルバイジン2020の公式評価で23.33 % WERを達成した。 0.65
Aside from techniques used in our final submitted systems, we also describe our efforts in retrieving high-quality transcripts for training. 最終提出されたシステムで使用される技術とは別に、トレーニングのために高品質な書き起こしを検索する取り組みについても述べます。 0.52
Index Terms: fusion, end-to-end model, hybrid model, semisupervised, automatic speech recognition, convolutional neural network. インデックス用語:融合、エンドツーエンドモデル、ハイブリッドモデル、半教師付き、自動音声認識、畳み込みニューラルネットワーク。 0.74
1. Introduction Albayzin 2020 challenge is a continuation of the Albayzin 2018 challenges [4], which has evaluations for the following tasks: Speech to Text, Speaker Diarization and Identity Asignement, Multimodal Diarization and Scene Description and Search on Speech. 1. はじめに Albayzin 2020 Challengeは、Albayzin 2018 Challenge[4]の継続であり、テキストへのスピーチ、話者ダイアリゼーションとアイデンティティアサインメント、マルチモーダルダイアリゼーション、Scene Description and Search on Speechというタスクの評価を持っている。 0.69
The target domain of the series is broadcast TV and radio content, with shows in a notable variety of Spanish accents. 番組のターゲット・ドメインはテレビとラジオのコンテンツで、様々なスペイン語のアクセントで放送されている。 0.71
This paper describes BCN2BRNO’s team Automatic Speech Recognition (ASR) system for IberSPEECH-RTVE 2020 Speech to Text Transcription Challenge, a joint collaboration between Speech@FIT research group, Telef´onica Research (TID) and Universitat Pompeu Fabra (UPF). 本論文では、IberSPEECH-RTVE 2020 Speech to Text Transcription Challenge のための BCN2BRNO のチーム自動音声認識 (ASR) システムについて説明します。
訳抜け防止モード: 本稿では,BCN2BRNO チームによる IberSPEECH - RTVE 2020 Speech to Text Transcription Challenge のための自動音声認識システムについて述べる。 Speech@FIT Research Group, Telef ́onica Research (TID) の共同研究 そしてPompeu Fabra大学(UPF)。
0.85
Our goal is to develop two distinct ASR systems, one based on a hybrid model [5] and the other one on an end-to-end approach [6], and complement each other through a joint fusion. 我々のゴールは、ハイブリッドモデル [5] とエンド・ツー・エンドアプローチ [6] に基づく2つの異なる ASR システムを開発し、ジョイント・フュージョンを通じて相互に補完することである。 0.79
We submitted one primary system and one contrastive system. 我々は1つの一次システムと1つの対照システムを提出した。 0.53
The primary system – Fusion B – is a word-level ROVER fusion of hybrid ASR models and end-to-end models. 主システムであるFusion Bは、ハイブリッドASRモデルとエンドツーエンドモデルの単語レベルのROVER融合である。 0.72
It achieved 23.33 % WER on official evaluation dataset. 公式評価データセットでは23.33 %であった。 0.66
However, the same result was accomplished by the contrastive system – Fusion A–, a fusion which comprises only hybrid ASR models. しかし、同じ結果は、ハイブリッドASRモデルのみを含む融合であるコントラストシステム - フュージョンA - によって達成されました。 0.75
In this paper we describe both ASR systems, plus a post-evaluation analysis and experiments that lead to a better performance of the primary fusion. 本稿では、ASRシステムと評価後の分析と実験の両方について説明し、一次核融合のより良い性能をもたらす。 0.75
We also discuss the effect of speech enhancement techniques like background music removal or speech denoising. また、背景音楽除去や発話消音などの音声強調技術の効果についても検討する。 0.68
The Albayzin 2020 challenge comes with two databases: RTVE2018 and RTVE2020. Albayzin 2020チャレンジには、RTVE2018とRTVE2020の2つのデータベースがある。 0.67
The RTVE2018 is the main source of training and development data, while the RTVE2020 database is used for the final evaluation of submitted systems. RTVE2018はトレーニングおよび開発データの主要なソースであり、RTVE2020データベースは提出されたシステムの最終評価に使用される。 0.88
RTVE2018 database [7] comprises 15 different TV programs broadcast between 2015 and 2018 by the Spanish public television Radiotelevisi´on Espa˜nola (RTVE). RTVE2018データベース[7]は、2015年から2018年にかけて、スペインの公共放送局Radiotelevisi ́on Espa snola(RTVE)が放送した15の異なるテレビ番組である。 0.61
The programs contain a great variety of speech scenarios from read speech to spontaneous speech, live broadcast, political debates, etc. プログラムは、読み上げスピーチから自発的なスピーチ、ライブ放送、政治的議論など、さまざまなスピーチシナリオが含まれています。 0.72
They cover also different Spanish accents, including Latin-American ones. また、ラテンアメリカのアクセントを含むスペイン語のアクセントもカバーしている。 0.58
The database is partitioned into 4 different subsets: train, dev1, dev2 and test. データベースはTrain、dev1、dev2、Testの4つのサブセットに分割されている。 0.69
The database consists of 569 hours of audio data, from which 468 hours are provided with subtitles (train set), and 109 hours are human-revised (dev1, dev2 and test sets). データベースは569時間のオーディオデータからなり、468時間のサブタイトル(列車)と109時間の人間による予約(dev1、dev2、テストセット)が提供されている。 0.77
Both hybrid and end-to-end models utilize dev1 and train sets for training, while dev2 and test sets serve as validation datasets. ハイブリッドモデルとエンドツーエンドモデルの両方がトレーニングに dev1 と train セットを利用し、dev2 と test セットはバリデーションデータセットとして機能します。 0.62
RTVE2020 database [8] consists of TV shows of different genres broadcast by the RTVE from 2018 to 2019. RTVE2020データベース[8]は、2018年から2019年にかけてRTVEが放送した様々なジャンルのテレビ番組で構成されている。 0.61
It includes more than 70 hours of audio and it has been whole manually annotated. 70時間以上のオーディオを含み、手動で注釈付けされています。 0.74
In addition, three Linguistic Data Consortium (LDC) corpora were used for training the language model in the hybrid ASR system: Fisher Spanish Speech, CALLHOME Spanish Speech and Spanish Gigaword Third Edition. さらに、3つの言語データコンソーシアム(LDC)コーパスがハイブリッドASRシステム(Fisher Spanish Speech, CALLHOME Spanish Speech, Spanish Gigaword Third Edition)で言語モデルをトレーニングするために使用された。 0.86
Fisher Spanish Speech [9] corpus comprises spontaneous telephone speech from 136 native Caribbean Spanish and nonCaribbean Spanish speakers with full orthographic transcripts. Fisher Spanish Speech [9] Corpus は、カリブ原住民136人と非カリブ原住民のスペイン語話者からの自発音声で、完全な正書法を記述している。 0.52
The recordings consists of 819 telephone conversations lasting up to 12 minutes each. 録音は819件の電話会話からなり、それぞれ12分まで続く。 0.75
CALLHOME Spanish Speech [10] corpus consists of 120 telephone conversations between Spanish native speakers lasting less than 30 minutes. CALLHOME Spanish Speech [10] Corpusは、スペイン語母語話者間の120の電話会話を30分以内で行う。 0.87
Spanish Gigaword Third Edition [11] is an extensive database of Spanish newswire text data acquired by the LDC. Spanish Gigaword Third Edition[11]は、LCCが取得したスペイン語ニュースワイヤテキストデータの広範なデータベースである。 0.79
It includes reports, news, news briefs, etc. レポート、ニュース、ニュースブリーフィングなどが含まれます。 0.72
collected from 1994 through Dec 2010. 1994年から2010年12月まで。 0.68
We also downloaded the text data from Spanish Wikipedia. また、スペイン語のwikipediaからテキストデータをダウンロードしました。 0.65
The end-to-end model is trained on Fisher Spanish Speech, Mozilla’s Common Voice Spanish corpus and Telef´onica’s Call Center in-house data (23 hours). エンドツーエンドのモデルは、Fisher Spanish Speech、MozillaのCommon Voice Spanish corpus、Telef ́onicaのCall Center社内データ(23時間)で訓練されている。 0.81
Mozilla’s Common Voice Spanish [12] corpus is an open-source dataset that consists of recordings from volunteer contributors pronouncing scripted sentences, recorded at 48kHz rate. MozillaのCommon Voice Spanish [12]コーパスは、48kHzレートで記録されたスクリプト文を発音するボランティアコントリビュータからの録音で構成されるオープンソースのデータセットである。 0.71
The sentences come from original contributor donations and public domain movie scripts. 文章はオリジナルの寄付とパブリックドメインの映画脚本から来ている。 0.62
The version of Common Voice corpus used for this work is 5.1, which has 521 hours of recorded speech. この作品で使用される一般的な音声コーパスは5.1で、521時間の録音音声がある。 0.76
However, we have kept only speech validated by the contributors, an amount of 290 hours. しかし、私たちは、コントリビューターによって検証されたスピーチのみを290時間保ちました。 0.64
英語(論文から抽出)日本語訳スコア
2.1. Transcript retrieval The training data from RTVE2018 database includes many hours of subtitled speech. 2.1. トランスクリプト検索 RTVE2018データベースからのトレーニングデータには、字幕付き音声が何時間も含まれている。 0.64
Although, the captions contain several errors. しかし、キャプションにはいくつかのエラーが含まれている。 0.41
In the most cases captions are shifted by a few seconds, so a segment with correct transcript corresponds to a different portion of audio. ほとんどの場合、キャプションは数秒シフトされるため、正しいトランスクリプトを持つセグメントは、オーディオの異なる部分に対応します。 0.74
This phenomenon also occurs in human-revised development and test sets. この現象は、人間による改良された開発とテストセットでも起こる。 0.54
Another problem with subtitled speech is “partly-said” captions. 字幕字幕のもう1つの問題は “partly-said”キャプションだ。 0.53
This issue involves misspelled and unspoken words of the transcription. この問題には、転写のスペルミスと未発話の単語が含まれます。 0.50
Since the training procedure of the hybrid ASR is quite error-prone in case of misaligned labels, we decided to apply a transcript retrieval technique developed by Manohar, et al. ラベルが一致しない場合,ハイブリッドASRのトレーニング手順は非常にエラーを起こしやすいため,Manoharらが開発した手書き検索手法を適用した。 0.65
[13]: the closed-captions related to the same audio, i.e., the whole TV show, are first concatenated according to the original timeline. [13]: 同一の音声に関連するクローズドキャプション、すなわち、TV番組全体は、元々のタイムラインに従って最初にコンカニオン化される。 0.71
This creates a small text corpus containing a few hundreds of words. これは数百の単語を含む小さなテキストコーパスを生成する。 0.73
The text corpus is used for training a biased N-gram language model (LM) with N = 7, so the model is biased only on the currently processed captions. テキストコーパスは、N = 7のバイアス付きN-gram言語モデル(LM)のトレーニングに使用されるため、現在処理されているキャプションにのみバイアスがかかる。 0.74
During decoding, the weight of the acoustic model (AM) is significantly smaller than the weight of LM, because we believe that the captions should occur in hypotheses. デコード中、音響モデル(AM)の重量はLMの重量よりかなり小さいです、なぜなら私達はキャプションが仮説で起こるべきであると信じます。 0.65
Then, the “winning” path is retrieved from the hypothesis lattice as the path that has a minimum edit cost w.r.t. そして、最小編集コストw.r.tを有する経路として仮説格子から「勝利」パスを検索する。 0.68
the original transcript. Finally, the retrieved transcripts are segmented using the CTMs obtained from the oracle alignment (previous step). 原本。 最後に、検索した転写物は、オラクルアライメント(以前のステップ)から得られたCTMを用いてセグメント化される。 0.44
More details can be found in [14, 13]. 詳細は[14, 13]で確認できる。 0.67
Table 1: 2-pass transcript retrieval. 表1: 2-pass transcript 検索。 0.82
Cleaning Original 1-pass 2-pass Recovered 元の1パス2パスクリーニング回収 0.62
Train Dev1 Dev2 列車 Dev1 Dev2 0.71
468 99.4 234.2 468 99.4 234.2 0.59
60.6 21 55.1 60.6 21 55.1 0.59
15.2 7.5 14.3 15.2 7.5 14.3 0.47
Test 36.833.7 テスト 36.833.7 0.58
50 % 91 % 94 % 92 % 50 % 91 % 94 % 92 % 0.85
The transcript retrieval technique is applied twice. 転写検索技術は2回適用される。 0.75
First, we train an initial ASR system on out-of-domain data, e.g., Fisher and CALLHOME. まず、FisherやCALLHOMEなど、ドメイン外のデータに基づいて最初のASRシステムをトレーニングします。 0.61
A system is used in the first pass of transcript retrieval. システムは、最初の転写検索のパスで使用される。 0.74
Then, a new system is trained from scratch on already cleaned data and the whole process of transcript retrieval is repeated again. そして、既にクリーニングされているデータに対してスクラッチから新しいシステムを訓練し、書き起こし検索のプロセス全体を繰り返す。 0.77
Table 1 shows how this 2-pass cleaning leads to recover almost all the manually annotated development data and half of the subtitled training data. 表1は、この2パスクリーニングが手動で注釈付き開発データと字幕付きトレーニングデータの半分をほぼすべて回復させる方法を示しています。 0.69
Figure 1: Amount of cleaned audio per TV-show, in hours. 図1: 番組毎の清潔なオーディオを数時間で処理します。 0.71
Figure 1 depicts how many hours have been recovered in individual TV programs. 図1は、個々のテレビ番組で何時間経過したかを示しています。 0.62
It also shows how data is distributed in the database. また、データをデータベースに分散する方法も示します。 0.75
Most speech comes from La-Ma˜nana (LM) TV ほとんどのスピーチはラ・マ・シュナナ(LM)テレビから来ている。 0.53
program. We discarded most data in this TV program after 2pass data cleaning. プログラム 2passデータクリーニング後、このテレビ番組のほとんどのデータを廃棄した。 0.59
It happened because this particular TV show was quite challenging for our ASR model. というのも、この番組は我々のASRモデルにとってかなり難しかったからです。 0.62
3. Hybrid speech recognition 3. ハイブリッド音声認識 0.76
3.1. Acoustic Model In all our experiments, the acoustic model was based on a hybrid Deep Neural Network – Hidden Markov Model architecture trained in Kaldi [15]. 3.1. 音響モデル すべての実験において、音響モデルはカルディで訓練されたハイブリッドディープニューラルネットワーク-隠れマルコフモデルアーキテクチャ [15]に基づいていた。 0.75
The NN part of the model contains 6 convolutional layers followed by 19 TDNN layers with semiorthogonal factorization [5] (CNN-TDNNf). このモデルのNN部分は6つの畳み込み層を含み、19のTDNN層が半直交ファクタリゼーション [5] (CNN-TDNf) を持つ。 0.76
The input consists of 40-dim MFCCs concatenated with speaker dependent 100dim i-vectors. この入力は、スピーカー依存の100dim i-vectorと結合した40dim mfccからなる。 0.55
Whole model is trained using LF-MMI objective function with bi-phone acoustic units as the targets. 全モデルは音素音響単位を目標とするlf-mmi目的関数を用いて訓練される。 0.64
In order to make our NN model training more robust, we introduced feature dropout layer into the architecture. NNモデルのトレーニングをより堅牢にするために、アーキテクチャに機能ドロップアウト層を導入しました。 0.71
This prevents the model from overfitting on training data. これにより、モデルはトレーニングデータに過度に適合しない。 0.60
In fact, it turned overfitting problem into underfitting problem. 実際、過剰フィッティング問題は不適合問題に変わりました。 0.64
Thus, it leads to a slower convergence during training. これにより、トレーニング中の収束が遅くなる。 0.69
This is solved by increasing the number of epochs from 6 to 8 to balance the underfitting in our system. これを6から8に増やし、システム内のアンダーフィッティングのバランスをとることで解決します。
訳抜け防止モード: これは解決される システムの不整合のバランスを取るため 6から8までのエポックの数を増やします
0.76
This technique is also known as Spectral Augmentation. この手法はスペクトル拡張とも呼ばれる。 0.70
It was first suggested for multi-stream hybrid NN models in [1] and fully examined in [2]. これは[1]でマルチストリームハイブリッドNNモデルに初めて提案され、[2]で完全に検討された。
訳抜け防止モード: マルチストリームハイブリッドNNモデル [1 ] で最初に提案された。 そして[2 ]で完全に調べました
0.65
3.2. Language Model We trained three different 3-gram language models: Alb, Wiki and Giga. 3.2. 言語モデル アルブ、ウィキ、ギガの3つの異なる3グラム言語モデルを訓練しました。 0.68
The names suggest which text corpus was used during training. トレーニング中にどのテキストコーパスが使用されたかが示される。 0.52
Albayzin LM was trained on dev1 and train sets from RTVE2018. Albayzin LM は dev1 と RTVE2018 から訓練された。 0.85
This text mixture contains 80 thousand unique words in 0.5 million sentences. このテキストは、0.5万文の8千のユニークな単語を含む。 0.53
This small training text is not optimal to train N-gram LM, which is able to generalize well. この小さなトレーニングテキストは、うまく一般化できるn-gram lmを訓練するのに最適ではない。 0.76
So we also included larger text corpora: Wikipedia and Spanish Gigaword. そこで、wikipediaとスペインのgigawordという大きなテキストコーパスも加わりました。 0.62
These databases were further processed to get rid of unrelated text like advertisement, emoji, urls, etc. これらのデータベースはさらに処理され、広告、絵文字、URLなど無関係なテキストが削除された。 0.71
This resulted into more than 2.5 million fine sentences in Wikipedia and 20 million sentences in Spanish Gigaword. その結果、wikipediaで250万以上の罰金と、スペインのギガワードで2000万以上の罰金が課せられた。
訳抜け防止モード: その結果、wikipediaで250万以上の罰金が言い渡された。 スペイン語の「ギガワード」の2000万文です
0.59
We experimented with 4 combinations of interpolation: Alb, Alb+Wiki, Alb+Giga, Alb+Wiki+Giga. Alb, Alb+Wiki, Alb+Giga, Alb+Wiki+Gigaの4種類の補間実験を行った。 0.66
Our vocabulary consists of words 語彙は単語で構成されます。 0.54
from RTVE2018 database and from Santiago lexicon1. RTVE2018データベースとサンティアゴlexicon1から。 0.73
The pronunciation of Spanish words was extracted using public TTS model called E-speak [16]. スペイン語の発音は、E-speak[16]と呼ばれる公共TTSモデルを用いて抽出された。 0.66
The vocabulary was then extended by auxiliary labels for noise, music and overlapped speech. 語彙は、ノイズ、音楽、重複した音声の補助ラベルによって拡張された。 0.63
The final lexicon contains around 110 thousand words. 最後の辞書には約110万語が含まれている。 0.57
3.3. Voice Activity Detection Voice activity detection (VAD) was applied on evaluation data in order to segment the audio into smaller chunks. 3.3. 評価データに音声活動検出音声活動検出(vad)を適用し,音声をより小さなチャンクに分割した。 0.73
VAD is based on feed-forward neural network with two outputs. VADは2つの出力を持つフィードフォワードニューラルネットワークに基づいている。 0.65
It expects 15-dimensional filterbank features with additional 3 Kaldi pitch features [17] as the input. 入力には15次元のフィルタバンクと3Kaldiのピッチ機能[17]が期待されている。 0.55
Features are normalized with cepstral mean normalization. 特徴はケプストラム平均正規化で正規化される。 0.58
More details can be found in [18]. 詳細は[18]で確認できる。 0.60
4. End-to-end speech recognition 4. エンドツーエンド音声認識 0.73
4.1. Acoustic Model The end-to-end acoustic model is based on a convolutional architecture proposed by Collobert et al. 4.1. 音響モデル エンドツーエンドの音響モデルは、collobertらによって提案された畳み込みアーキテクチャに基づいている。 0.67
[6] that uses gated linear units (GLUs). ゲートされた線形単位(GLUs)を使用する[6]。 0.85
Using GLUs in convolutional approaches helps 畳み込みアプローチにおけるGLUの利用 0.68
1https://www.openslr .org/34/ 1https://www.openslr .org/34/ 0.34
050100150200250300AF ILT24HTerLT24HEntCAA P20HECAGAVLA24HLMDHS GMillenniumLT24HEcoO riginal2-pass 050100150200250300AF ILT24HTerLT24HEntCAA P20HECAGAVLA24HLMDHS GMillenniumLT24HEcoO riginal2-pass 0.15
英語(論文から抽出)日本語訳スコア
Table 2: Effect of 2-pass transcript cleaning evaluated on RTVE2018 test set. 表2:RTVE2018テストセットにおける2パスの経時的クリーニングの効果 0.76
AM LM Training WER [%] AM LMトレーニング WER [%] 0.72
CNN-TDNNf Alb CNN-TDNNf Alb 0.71
data 1-pass 2-pass 3-pass データ1パス2パス3パス 0.51
Test 17.2 15.5 15.5 テスト 17.2 15.5 15.5 0.50
This brought us the idea of processing the audio through a Music Source Separator called Demucs [3]. これにより、demucs [3]という音楽ソースセパレータを通じてオーディオを処理するというアイデアが生まれました。 0.63
It separates the original audio into voice, bass, drums and others. オリジナルのオーディオを音声、ベース、ドラムなどに分けます。 0.65
By keeping only the voice component, we managed to significantly eliminate the background music, while maintaining relatively good quality in the original voice. 音声成分のみをキープすることで、背景音楽を大幅に排除し、元の音声の比較的良い品質を維持しました。 0.75
We enhanced both validation sets in order to assess possible WER reductions. WER削減の可能性を評価するため,両検証セットを拡張した。 0.61
As seen in Table 4, this approach yielded a small increase in WER. 表4に示すように、このアプローチはWERの小さな増加をもたらしました。 0.74
We also tried applying a specialized denoiser [19] after background music removal, but the WER for dev2 increased in an absolute 1.6%, compared to original system without enhancement. また,背景音楽除去後の特殊デノイザ [19] の適用を試みたが,Dev2のWERは,拡張のないオリジナルシステムに比べて絶対1.6%増加した。 0.80
None of these two approaches (Demucs and Demucs+Denoiser) provided WER improvements at first, so we did not apply them for the end-to-end model used in the fusion. これらの2つのアプローチ(DemucsとDemucs+Denoiser)は、最初はWERの改善を提供しなかったので、融合で使用されるエンドツーエンドモデルには適用しませんでした。 0.64
Although, the end-to-end, end-to-end + Demucs and end-to-end + Demucs + Denoiser models were submitted as separate systems by UPF-TID team, see Table 5 for details. しかし、エンドツーエンドのエンドツーエンド + demucs とエンドツーエンド + demucs + denoiser モデルは upf-tid チームによって別々のシステムとして提出された。
訳抜け防止モード: しかし、-------------------- ------- そして-to - end + Demucs + Denoiser モデルは UPF - TID チームによって別々のシステムとして提出された。 詳細はテーブル5を参照。
0.65
Our hypothesis is that not all the samples contain background music. 我々の仮説では、すべてのサンプルが背景音楽を含んでいるわけではない。 0.56
Speech enhancement for already clean samples is detrimental because it causes slight degradation in the signal. すでにクリーンなサンプルの音声強調は、信号のわずかな劣化を引き起こすため有害です。 0.74
Hence, we have evaluated the effects of applying music source separation to samples under certain SNR ranges, measured with the WADA-SNR algorithm [22]. そこで,WADA-SNRアルゴリズム[22]を用いて,特定のSNR範囲のサンプルに音源分離を施すことの効果を評価した。 0.88
The application of music separation on RTVE dataset is optimal for SNR ranges between -5 and 5 or 8 as it is shown in Table 3. RTVEデータセットへの音楽分離の適用は,表3に示すように,SNRの範囲が5~5~8の範囲に最適である。 0.83
Looking at Figure 2, best improvements are found at TV shows with higher WER (thus harder/noisier speech), e.g., AV, where most of the time speakers are in a car, or LM and DH, where music and speech often overlap. 図2を見ると、より高いWER(より難しい/ノイズの多いスピーチ)を持つテレビ番組、例えば、ほとんどの時間のスピーカーが車の中にいるAV、または音楽とスピーチが重なるLMとDHで最高の改善が見られます。 0.74
Other shows have slighter benefits, since these already contain good quality audio. 良質なオーディオがすでにあるので、他の番組も若干の利点がある。 0.59
The exception is AFI show, which is reported to have poor quality audio, so further audio degradation from Demucs might cause worse performance. 例外はAFIショーであり、品質の悪いオーディオが報告されているため、Demucsのオーディオ劣化によりパフォーマンスが悪化する可能性がある。 0.74
Figure 2: Variation of the mean WER per TV show between using Demucs-cleaned or original samples on RTVE’s 2018 test set. 図2: RTVEの2018年テストセットでDemucs-cleanedまたはオリジナルサンプルを使用した場合のテレビ番組ごとの平均WERの変化。 0.73
Negative values represent Demucs improvements. 負値はデミュックの改善を表す。 0.60
Note that only samples with SNR between -5 and 8 are enhanced. -5から8の間のSNRのサンプルだけ高められることに注意して下さい。 0.59
avoiding vanishing gradients, by providing them linear paths while keeping high performances. 性能を維持しながら線形経路を提供することで、勾配の消失を避ける。 0.65
Concretely, we have used the model from wav2letter’s Wall Street Journal (WSJ) recipe. 具体的には、wav2letterのWall Street Journal(WSJ)レシピのモデルを使用しています。 0.68
This model has approximately 17M parameters with dropout applied after each of its 17 layers. このモデルは約17mのパラメータを持ち、17層ごとにドロップアウトが適用される。 0.72
The WSJ dataset contains around 80 hours of audio recordings, which is smaller than the magnitude of our data (∼600 hours). wsjデータセットには約80時間のオーディオ記録が含まれており、これは我々のデータの大きさ(600時間)よりも小さい。 0.68
The LibriSpeech recipe (∼1000 hours) provides a deeper ConvNet GLU based architecture, however we decided to use the WSJ one in order to reduce computational time and improve hyper-parameter fine-tuning of the network. LibriSpeechのレシピ(1000時間)は、より深いConvNet GLUベースのアーキテクチャを提供するが、計算時間を短縮し、ネットワークのハイパーパラメータ細調整を改善するためにWSJを使うことにした。 0.65
All data samples are resampled at 16kHz, and the system is trained with wav2letter++ framework. データサンプルはすべて16khzで再サンプリングされ、システムはwav2letter++フレームワークでトレーニングされる。 0.68
Mel-frequency spectral coefficients (MFSCs) are extracted from raw audio, using 80 filterbanks, and the system is trained using the Auto Segmentation criterion (ASG) [6] with batch size set to 4. 80個のフィルタバンクを用いて生音声からメル周波数スペクトル係数(mfscs)を抽出し、バッチサイズを4に設定したオートセグメンテーション基準(asg)[6]を用いてシステムを訓練する。 0.70
The learning rate starts at 5.6 and is decreased down to 0.4 after 30 epochs, where training is finished since no significant WER gains are achieved. 学習率は5.6から始まり、30エポック後に0.4に減少し、WERの有意な利益が得られないためトレーニングが完了する。 0.67
From epochs 22 to 28 the system is trained also with the same train set, but adding the RTVE2018 train and dev1 samples with the background music cleaned by Demucs module [3]. エポック22から28までのシステムは、同じ列車セットで訓練されるが、デミュックモジュール[3]でクリーニングされた背景音楽とともにrtve2018トレインとdev1のサンプルが追加されている。 0.66
The last two epochs, from epoch 28 to epoch 30, are done incorporating further samples with background noise removed by Demucs and denoised by a neural denoiser [19]. 最後の2つのエポックは、エポック28からエポック30まで、Demucsによって除去された背景ノイズを更なるサンプルに取り入れ、ニューラルデノイザー[19]によって認知される。 0.59
This way, data augmentation with samples without background music and noise is done, to aid the network at training with samples with difficult acoustic conditions. このように、背景音楽やノイズのないサンプルによるデータ拡張を行い、難しい音響条件を持つサンプルによるトレーニングのネットワークを支援する。 0.85
Besides, the network is more likely to generalize audio artifacts caused by the denoiser and music separator networks, which is useful when using these to clean test audio. さらに、このネットワークは、デノイザーおよび音楽セパレータネットワークによって引き起こされるオーディオアーティファクトを一般化する可能性が高く、オーディオをクリーンにするためにこれらを使用する場合に有用です。 0.64
4.2. Language Model Regarding the lexicon, we extract it from the train and validation transcripts, plus Sala lexicon [20]. 4.2. 言語モデル 辞書に関して、列車からそれを抽出し、検証書から、さらにサラ・レキシコン[20]を抽出する。 0.65
The resulting lexicon is a grapheme-based one with 271k words. 得られた辞書は、271kワードのグラファイムベースのものである。 0.63
We use the standard Spanish alphabet as tokens, plus the ”c¸” letter from Catalan and the vowels with diacritical marks, making a total of 37 tokens. 標準のスペイン語のアルファベットをトークンとして、カタルーニャ語と母音にダイアクリティカルマークを付けた“c”文字を合計37トークンとして使用します。 0.76
The LM is a 5-gram model trained with KenLM [21] using only transcripts from the training sets: RTVE2018 train and dev1, plus Common Voice, Fisher and Call Center. LMはKenLM [21]でトレーニングされた5グラムモデルで、トレーニングセット(RTVE2018トレインとdev1)とCommon Voice、Fisher、Call Center)のみを使用しています。 0.72
The resulting LM is described in this paper as Alb+Others. この論文で得られたLMはAlb+Othersと記述される。 0.61
Fine-tuning of decoder hyperparameters is done via gridsearch with RTVE2018 dev2 set. デコーダハイパーパラメータの微調整は、RTVE2018 dev2 セットでグリッドサーチによって行われる。 0.47
The best results are achieved with a LM weight of 2.25, a word score of 2.25 and a silence score of -0.35. 最高の結果は、2.25のLM重量、2.25の単語スコア、-0.35の沈黙スコアで達成されます。 0.67
This same configuration is then applied for evaluation datasets from RTVE2018 and RTVE2020. この設定はRTVE2018とRTVE2020の評価データセットに適用される。 0.66
5. Experiments 5.1. 5. 実験 5.1. 0.77
Data cleaning Data cleaning by means of 2-pass transcript retrieval improves the performance of our models the most. データクリーニング データクリーニングは2パスの書き起こし検索により, モデルの性能を最も向上させる。 0.78
Table 1 shows the effect of each pass. 表1は各パスの効果を示す。 0.78
The 2nd pass helped to improve the accuracy by almost 2 % in terms of WER. 第2パスはWERの精度を約2%向上させるのに役立った。 0.76
We also ran the 3rd pass, but that did not help anymore. 3回目のパスも走ったが、もう役に立たなかった。 0.70
We simply did not retrieve more cleaned data from the original transcripts, just 3 hours more. オリジナルの書き起こしから、よりクリーンなデータを取り出すのに3時間しかかからなかったのです。 0.64
We could not train the models with the original subtitles, since these contained wrong timestamps. これらは間違ったタイムスタンプを含んでいたため、オリジナルの字幕でモデルをトレーニングすることはできませんでした。 0.50
5.2. Speech Enhancement It is very common to find background music on TV programs, which can confuse our recognizer if it has a notorious presence. 5.2. 音声強調 テレビ番組でバックグラウンド音楽を見つけるのがとても一般的で、悪名高い存在であれば認識者を混乱させます。 0.67
英語(論文から抽出)日本語訳スコア
Table 3: WER impact of cleaning speech signals between certain SNR ranges, using a music source separator. 表3: 音源分離器を用いた特定のSNR範囲間の音声信号のクリーニングによるWER効果 0.82
End-to-end ConvNet GLU model is used without LM, and percentage of cleaned samples are reported. エンドツーエンドのConvNet GLUモデルはLMなしで使用され、洗浄されたサンプルの割合が報告されます。 0.54
SNR (−∞,∞) (−∞, 10) (−5, 10) (−5, 5) (−5, 8) SNR (−∞,∞) (−∞, 10) (−5, 10) (−5, 5) (−5, 8) 0.82
Cleaned Samples [%] 2018 100 25.97 25.84 5.14 14.95 洗浄サンプル [%] 2018 100 25.97 25.84 5.14 14.95 0.72
2020 100 34.22 31.33 11.88 22.11 2020 100 34.22 31.33 11.88 22.11 0.55
Test WER [%] 2020 2018 53.53 37.50 -0.87 -0.05 -0.05 -0.88 -1.03 -0.07 -0.08 -0.97 Test WER [%] 2020 2018 53.53 37.50 -0.87 -0.05 -0.05 -0.88 -1.03 -0.07 -0.08 -0.97 0.48
5.3. Spectral augmentation Table 4 shows compared models with and without spectral augmentation. 5.3. スペクトル増補表4は、スペクトル増補を伴わない比較モデルを示す。 0.75
The technique helps quite significantly. そのテクニックは大いに役立ちます。 0.67
All models with feature dropout layer outperformed their counterparts with a quite constant 0.4% absolute WER improvement on RTVE2018 test set and around 0.6% on RTVE2018 dev2 set. 機能ドロップアウト層を持つすべてのモデルは、RTVE2018テストセットでほぼ一定の0.4%の絶対WER改善とRTVE2018 dev2セットで約0.6%の同等の性能を発揮しました。 0.62
5.4. Model fusion We also fuse the output of our best systems to further improve the performance. 5.4. モデル融合 私たちは、パフォーマンスをさらに向上するために、最高のシステムの出力も融合します。
訳抜け防止モード: 5.4. モデル融合 最高のシステムの出力も融合する パフォーマンスをさらに向上させるためです
0.74
Overall results of our systems considered for the fusion are depicted in Table 4. 融合に考慮された系全体の結果は表4に示される。 0.78
Since the models with spectral augmentation performed significantly better, we decided to fuse only these systems. スペクトル拡大モデルの性能は大幅に向上したので,これらのシステムのみを融合させることにした。 0.56
We analyzed two different approaches: a pure hybrid model fusion (Fusion A) and hybrid and end-toend model fusion (Fusion B). 我々は、純粋なハイブリッドモデル融合(Fusion A)とハイブリッドモデル融合(Fusion B)の2つの異なるアプローチを解析した。 0.87
Considering that the end-to-end model does not provide word-level timestamps, we had to force-align the transcripts with the hybrid ASR system in order to obtain CTM output. CTM出力を得るためには,単語レベルのタイムスタンプが提供されないため,ハイブリッドASRシステムで書き起こしを強制的に調整しなければならなかった。 0.71
The original word-level fusion was done using ROVER toolkit [23]. 元のワードレベル融合はROVERツールキット[23]を使用して行われた。 0.54
Fusion B with end-to-end models performed slightly better than its counterpart Fusion A, despite the fact that the end-to-end models achieved worse results. エンドツーエンドモデルを持つFusion Bは、エンドツーエンドモデルが悪い結果を達成したという事実にもかかわらず、そのFusion Aよりもわずかに優れています。
訳抜け防止モード: fusion b with end -to - end model は fusion a よりも若干優れていた。 にもかかわらず 終端 - 終端モデルがより悪い結果を達成した。
0.63
This somehow proves the idea that the fusion can benefit from different modeling approaches. これは、融合が異なるモデリングアプローチの恩恵を受けるという考えを何らかの形で証明する。 0.58
6. Final systems Table 5 depicts the results on RTVE2020 test set. 6. 最終システム 表5はRTVE2020テストセットの結果を示しています。 0.76
For the endto-end ConvNet GLU model, the performance drops around a 15% WER when compared with previous results on development sets. エンドツーエンドのConvNet GLUモデルでは、開発セットの以前の結果と比較すると、パフォーマンスは15% WER程度低下します。 0.74
Since the TV shows in such sets are also present in training dataset, our hypothesis is that the model slightly overfits to them. このようなセットのテレビ番組はトレーニングデータセットにも存在するので、私たちの仮説は、モデルがそれらにわずかに適しているということです。
訳抜け防止モード: このようなセットのテレビ番組もトレーニングデータセットに存在している。 我々の仮説では モデルは少し過度に適合する
0.77
Therefore, when facing different acoustic conditions, voices, background noises and musics presented in RTVE2020 test set, the WER noticeable increases. したがって、RTVE2020テストセットで提示される異なる音響条件、声、背景雑音、音楽に直面すると、WERは顕著に増加する。 0.67
Enhancing the test samples with Demucs or with Demucs+Denoiser yields a worse WER score, probably due to an inherent degradation of the signal. demucs または demucs+denoiser によるテストサンプルの強化は、信号の固有の劣化により、より悪い wer スコアをもたらす。 0.73
A deeper analysis about more efficient ways to apply such enhancements has been done in section 5.2. このような強化を適用するより効率的な方法に関するより深い分析は、セクション5.2で行われている。 0.65
Also, note that the submitted systems had a leak of dev2 stm transcripts in the LM, causing an hyperparameter overfitting during LM tuning. また、提出されたシステムはLMに dev2 stm トランスクリプトのリークがあり、LMチューニング中にハイパーパラメータオーバーフィットを引き起こすことに注意してください。
訳抜け防止モード: また、提出されたシステムはLMに dev2 stm transcripts のリークがあったことに注意してください。 LMチューニング中にハイパーパラメータオーバーフィットを引き起こす。
0.71
This caused a WER drop in all end-to-end systems, yielding WERs of 41.4%, 42.3% and 58.6%. これにより、全てのエンドツーエンドシステムにWERが低下し、WERは41.4%、42.3%、58.6%となった。 0.49
Table 5 also displays the results of same systems with the leakage and LM tuning corrected in post-evaluation analysis. 表5は、リークとLMチューニングを後評価分析で補正した同じシステムの結果も表示する。 0.74
2Primary system of UPF-TID team. 2Primary system of UPF-TID team。 0.75
3First contrastive system of UPF-TID team. 3 UPF-TIDチームの最初のコントラストシステム。 0.63
4Second contrastive system of UPF-TID team. 4 UPF-TIDチームのコントラストシステム 0.78
Table 4: Overall results on RTVE2018 dataset with various language models and fusions. 表4:さまざまな言語モデルと融合によるRTVE2018データセットの全体的な結果。 0.78
AM LM Alb Alb + Wiki Alb + Giga Alb + Wiki + Giga Alb Alb+Wiki Alb+Giga Alb+Wiki+Giga AM LM Alb Alb + Wiki Alb + Giga Alb + Wiki + Giga Alb+Wiki Alb+Giga Alb+Wiki+Giga 0.84
+ SpecAug CNN-TDNNf +SpecAug CNN-TDNNf 0.67
1 2 3 4 5 6 7 8 9 ConvNet GLU None 10 11 12 13 14 1 2 3 4 5 6 7 8 9 ConvNet GLU None 10 11 12 13 14 0.85
Fusion A Fusion B Fusion A Fusion B 0.85
+ Demucs Alb + Others None Alb + Others +デミュック Alb + others none Alb + others 0.67
(row 5-8) (row 5-8 and 10) (5~8)(5~8~10) 0.70
WER [%] Test 15.5 14.9 15.1 15.0 15.0 14.5 14.7 14.6 37.5 20.7 37.5 20.8 13.7 13.3 WER [%] Test 15.5 14.9 15.1 15.0 15.0 14.5 14.7 14.6 37.5 20.7 37.5 20.8 13.7 13.3 0.51
Dev2 14.1 13.6 13.6 13.5 13.4 12.9 13.0 12.9 36.1 20.8 36.4 21.1 12.9 12.8 Dev2 14.1 13.6 13.6 13.5 13.4 12.9 13.0 12.9 36.1 20.8 36.4 21.1 12.9 12.8 0.42
Table 5: Official and post-evaluation final results on RTVE2020 eval set for the submitted systems. 表5:提出されたシステムのRTVE2020evalセットに関する公式および評価後の最終結果。 0.72
WER [%] Post-eval WER [%] 戦後 0.36
Model CNN-TDNNf + SpecAug ConvNet GLU + Demucs + Demucs + Denoiser Fusion A Fusion B モデル CNN-TDNNf + SpecAug ConvNet GLU + Demucs + Demucs + Denoiser Fusion A Fusion B 0.88
Official41.42 42.33 58.64 23.33 23.33 41.42 42.33 58.64 23.33 23.33 0.40
24.3 23.5 36.2 37.9 40.0 23.38 23.24 24.3 23.5 36.2 37.9 40.0 23.38 23.24 0.43
7. Conclusions In this paper we described two different ASR model architectures and their fusion. 7. 結論 本稿では,2つのASRモデルアーキテクチャとその融合について述べる。 0.74
We focused on improving the original subtitled data in order to train our models on high quality target labels. 高品質なターゲットラベルでモデルをトレーニングするために、オリジナルの字幕データの改善に注力しました。 0.68
We also improved the N-gram language model by incorporating publicly available text data from Wikipedia and Spanish Gigaword corpus from LDC. また、ウィキペディアの公開テキストデータとLCCのスペイン語ギガワードコーパスを組み込むことで、N-gram言語モデルを改善した。 0.72
We have also successfully incorporated the spectral augmentation into our AM architecture. また、スペクトル拡張をAMアーキテクチャに組み込むことに成功した。 0.64
Our best system achieved 13.3 % and 23.24 % WER on RTVE2018 and RTVE2020 test sets respectively. RTVE2018 と RTVE2020 でそれぞれ 13.3 % と 23.24 % WER を達成した。 0.74
The performance of our hybrid system can be further improved by using lattice-fusion with Minimum Bayes Risk decoding[24]. 最小ベイズリスク復号法を用いた格子融合により, ハイブリッドシステムの性能をさらに向上させることができる[24]。 0.75
Another space for improvement is offered by adding a RNN-LM lattice-rescoring. 改善のための別のスペースは、RNN-LM格子再構成を追加することで提供される。 0.49
Our end-to-end model shows relatively competitive performance on RTVE2018 test set in comparison with its hybrid counterpart. 当社のエンドツーエンドモデルは、ハイブリッドモデルと比較してRTVE2018テストセットで比較的競争力のあるパフォーマンスを示しています。 0.55
However, its performance on RTVE2020 expose that the model was not able to generalize very well since this database turns out to contain slightly different acoustic conditions. しかし、RTVE2020の性能は、このデータベースがわずかに異なる音響条件を含むことが判明したため、モデルがあまりよく一般化できなかったことを明らかにする。 0.62
Despite of this fact, the model still managed to improve the results in the final fusion with hybrid systems. この事実にもかかわらず、モデルはまだハイブリッドシステムとの最終的な融合の結果を改善することができた。
訳抜け防止モード: この事実にもかかわらず モデルはいまだに ハイブリッドシステムとの最終的な融合の結果を改善する。
0.78
An exploration on background music removal shows that it yields the best results for lower SNR ranges, thus having a different impact depending on the acoustic conditions of each TV show. 背景音楽の除去について調べると,SNRの低い範囲で最高の結果が得られることが示され,各番組の音響条件によって異なる影響が生じる。 0.89
英語(論文から抽出)日本語訳スコア
[17] P. Ghahremani, B. BabaAli, D. Povey, K. Riedhammer, J. Trmal, and S. Khudanpur, “A pitch extraction algorithm tuned for automatic speech recognition,” in Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. 17] p. ghahremani, b. babaali, d. povey, k. riedhammer, j. trmal, and s. khudanpur, “a pitch extraction algorithm used for automatic speech recognition” in acoustics, speech and signal processing (icassp), 2014 ieee international conference on (英語) 0.85
Florence, Italy: IEEE, May 2014. フィレンツェ、イタリア:IEEE、2014年5月。 0.67
[18] O. Plchot, P. Matˇejka, O. Novotn´y, S. Cumani, A. D. Lozano, J. Slav´ıˇcek, M. S. Diez, F. Gr´ezl, O. Glembek, M. V. Kamsali, A. Silnova, L. Burget, L. Ondel, S. Kesiraju, and A. J. Rohdin, “Analysis of but-pt submission for nist lre 2017,” in Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop, 2018, pp. [18] O. Plchot, P. Matsejka, O. Novotn ́y, S. Cumani, A.D. Lozano, J. Slav ́scek, M.S. Diez, F. Gr ́ezl, O. Glembek, M.V. Kamsali, A. Silnova, L. Burget, L. Ondel, S. Kesiraju, A. J. Rohdin, "Analysis of but-pt submit for nist lre 2017" in Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop, 2018 pp。 0.88
47–53. [19] A. Defossez, G. Synnaeve, and Y. Adi, “Real time speech en- 47–53. 19] A. Defossez, G. Synnaeve, Y. Adi, "Real Time Speech en-" 0.78
hancement in the waveform domain,” 2020. 波形領域のhancement” は2020年です。 0.71
[20] A. Moreno, O. Gedge, H. Heuvel, H. H¨oge, S. Horbach, P. Martin, E. Pinto, A. Rinc´on, F. Senia, and R. Sukkar, “Speechdat across all america: Sala ii,” 2002. A. Moreno, O. Gedge, H. Heuvel, H. H. Ooge, S. Horbach, P. Martin, E. Pinto, A. Rinc ́on, F. Senia, R. Sukkar, “Speechdat across all America: Sala ii” 2002 0.95
[21] K. Heafield, “Kenlm: Faster and smaller language model queries,” in Proceedings of the Sixth Workshop on Statistical Machine Translation, ser. 第6回統計機械翻訳ワークショップ"Proceedings of the Sixth Workshop on Statistical Machine Translation, ser."でK. Heafield氏が"Kenlm: Faster and Small Language Model query"と題する講演を行った。 0.67
WMT ’11. USA: Association for Computational Linguistics, 2011, p. 187–197. WMT ’11。 USA: Association for Computational Linguistics, 2011, pp. 187–197。 0.84
[22] C. Kim and R. M. Stern, “Robust signal-to-noise ratio estimation based on waveform amplitude distribution analysis,” in Ninth Annual Conference of the International Speech Communication Association, 2008. C. Kim, R. M. Stern, “Robust signal-to-noise ratio Estimation based on waveform amplitude distribution analysis” on theninth Annual Conference of the International Speech Communication Association, 2008 0.82
[23] J. G. Fiscus, “A post-processing system to yield reduced word error rates: Recognizer Output Voting Error Reduction (ROVER),” in 1997 IEEE Workshop on Automatic Speech Recognition and Understanding Proceedings, 1997, pp. J.G. Fiscusは1997年にIEEE Workshop on Automatic Speech Recognition and Understanding Proceedings, 1997, pp.において、"Recognizer Output Voting Error reduction (ROVER)"という単語誤り率の低減を実現する後処理システムを開発した。 0.84
347–354. [24] P. Swietojanski, A. Ghoshal, and S. Renals, “Revisiting hybrid and GMM-HMM system combination techniques,” in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013, Vancouver, BC, Canada, May 26-31, 2013, 2013. 347–354. [24] P. Swietojanski, A. Ghoshal, and S. Renals, "Revisiting hybrid and GMM-HMM system combination techniques" in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013 Vancouver, BC, Canada, May 26-31, 2013。 0.79
8. References [1] S. H. R. Mallidi and H. Hermansky, “A Framework for Practical Multistream ASR,” in Interspeech 2016, 17th Annual Conference of the International Speech Communication Association, San Francisco, CA, USA, September 8-12, 2016, N. Morgan, Ed. 8. 参考文献 [1] S. H. R. Mallidi, H. Hermansky, “A Framework for Practical Multistream ASR” in Interspeech 2016, 17th Annual Conference of the International Speech Communication Association, San Francisco, CA, USA, September 8-12, 2016 N. Morgan, Ed 0.80
ISCA, 2016, pp. ISCA、2016 pp。 0.61
3474–3478. 3474–3478. 0.71
[2] D. S. Park, W. Chan, Y. Zhang, C. Chiu, B. Zoph, E. D. Cubuk, and Q. V. Le, “SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition,” in Interspeech 2019, 20th Annual Conference of the International Speech Communication Association, Graz, Austria, 15-19 September 2019. [2] D.S. Park, W. Chan, Y. Zhang, C. Chiu, B. Zoph, E. D. Cubuk, and Q. V. Le, "SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition" in Interspeech 2019, 20th Annual Conference of the International Speech Communication Association, Graz, Austria, 1519 September 2019。 0.96
ISCA, 2019, pp. ISCA, 2019, pp。 0.81
2613–2617. 2613–2617. 0.71
[3] A. D´efossez, N. Usunier, L. Bottou, and F. Bach, “Music source separation in the waveform domain,” arXiv preprint arXiv:1911.13254, 2019. A.D.efossez, N. Usunier, L. Bottou, F. Bach, “Music source separation in the waveform domain” arXiv preprint arXiv:1911.13254, 2019. 0.94
[4] E. Lleida, A. Ortega, A. Miguel, V. Baz´an-Gil, C. P´erez, M. G´omez, and A. de Prada, “Albayzin 2018 evaluation: the iberspeech-rtve challenge on speech technologies for spanish broadcast media,” Applied Sciences, vol. E. Lleida, A. Ortega, A. Miguel, V. Baz ́an-Gil, C. P ́erez, M. G ́omez, and A. de Prada, “Albayzin 2018 Evaluation: the iberspeech-rtve Challenge on speech technology for Spanish broadcast media”, Applied Sciences, Vol. 0.90
9, no. 24, p. 5412, 2019. 9、いいえ。 24, p. 5412, 2019。 0.83
[5] D. Povey, G. Cheng, Y. Wang, K. Li, H. Xu, M. Yarmohammadi, and S. Khudanpur, “Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks,” in Proceedings of Interspeech, 09 2018, pp. 5] D. Povey, G. Cheng, Y. Wang, K. Li, H. Xu, M. Yarmohammadi, S. Khudanpur, "Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks" in Proceedings of Interspeech, 09 2018 pp。 0.93
3743–3747. 3743–3747. 0.71
[6] R. Collobert, C. Puhrsch, and G. Synnaeve, “Wav2letter: an end-to-end convnet-based speech recognition system,” CoRR, vol. R. Collobert, C. Puhrsch, G. Synnaeve, “Wav2letter: a end-to-end convnet-based speech recognition system”, CoRR, vol. 0.90
abs/1609.03193, 2016. abs/1609.03193, 2016 0.68
[Online]. Available: http://arxiv.org/ abs/1609.03193 [オンライン] http://arxiv.org/ abs/1609.03193 0.57
[7] E. Lleida, A. Ortega, A. Miguel, V. Baz´an, C. P´erez, M. Zotano, and A. [7]E. Lleida, A. Ortega, A. Miguel, V. Baz ́an, C. P ́erez, M. Zotano, A。 0.80
De Prada, “RTVE2018 Database Description,” 2018. De Prada, “RTVE2018 Database Description”. 2018年。 0.93
[Online]. Available: http://catedrartve.u nizar.es/reto2018/ RTVE2018DB.pdf [オンライン] 利用可能: http://catedrartve.u nizar.es/reto2018/ RTVE2018DB.pdf 0.52
[8] E. Lleida, A. Ortega, A. Miguel, V. Baz´an-Gil, C. P´erez, M. G´om´ez, and A. E. Lleida, A. Ortega, A. Miguel, V. Baz ́an-Gil, C. P ́erez, M. G ́om ́ez, A. 0.73
De Prada, “RTVE2020 Database Description,” 2020. De Prada、「RTVE2020 Database Description」、2020年。 0.87
[Online]. Available: http://catedrartve.u nizar.es/reto2020/ RTVE2020DB.pdf [オンライン] 利用可能: http://catedrartve.u nizar.es/reto2020/ RTVE2020DB.pdf 0.52
[9] D. Graff, S. Huang, I. Cartagena, K. Walker, and C. Cieri, “Fisher Spanish Speech,” LDC2010S01. 9] D. Graff, S. Huang, I. Cartagena, K. Walker, C. Cieri, "Fisher Spanish Speech", LDC2010S01。 0.94
DVD. Philadelphia: Linguistic Data Consortium, 2010. DVD。 フィラデルフィア: 言語データコンソーシアム、2010年。 0.77
[10] A. Canavan and G. Zipperlen, “CALLHOME Spanish Speech,” LDC96S35. 10] A. CanavanとG. Zipperlen、 "CALLHOME Spanish Speech"、LDC96S35。 0.87
Web Download. Webダウンロード。 0.79
Philadelphia: Linguistic Data Consortium, 1996. フィラデルフィア: 言語データコンソーシアム、1996年。 0.77
ˆAngelo Mendonc¸a, D. Jaquette, D. Graff, and D. DiPersio, “Spanish Gigaword Third Edition,” LDC2011T12. Angelo Mendonc, D. Jaquette, D. Graff, D. DiPersio, “ Spanish Gigaword Third Edition”. LDC 2011T12 0.89
Web Download. Webダウンロード。 0.79
Philadelphia: Linguistic Data Consortium, 2011. フィラデルフィア:言語データコンソーシアム、2011年。 0.72
[11] [12] R. Ardila, M. Branson, K. Davis, M. Henretty, M. Kohler, J. Meyer, R. Morais, L. Saunders, F. M. Tyers, and G. Weber, “Common voice: A massively-multilingu al speech corpus,” 2019. [11] 12] R. Ardila, M. Branson, K. Davis, M. Henretty, M. Kohler, J. Meyer, R. Morais, L. Saunders, F.M. Tyers, G. Weber, “Common voice: A massive-multilingual speech corpus” 2019。 0.90
[13] V. Manohar, D. Povey, and S. Khudanpur, “JHU Kaldi system for Arabic MGB-3 ASR challenge using diarization, audio-transcript alignment and transfer learning,” in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), vol. V. Manohar, D. Povey, S. Khudanpur, “JHU Kaldi system for Arabic MGB-3 ASR Challenge using Diarization, audio-transcript alignment and transfer learning” in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), vol. 0.84
2018-. IEEE, 2017, pp. 2018-. IEEE、2017 pp。 0.75
346–352. [14] M. Kocour, “Automatic Speech Recognition System Continually Improving Based on Subtitled Speech Data,” Diploma thesis, Brno University of Technology, Faculty of Information Technology, Brno, 2019, technical supervisor Dr. Ing. 346–352. 14] m. kocour, “automatic speech recognition system continued improving based based on subtitled speech data” diploma thesis, brno university of technology, faculty of information technology, brno, 2019, technical supervisor dr. ing. ing. (英語) 0.78
Jordi Luque Serrano. Jordi Luque Serrano所属。 0.89
supervisor Doc. 監督ドキュメンテーション。 0.50
Dr. Ing. Jan ˇCernocky. Ing博士。 ジャン・シケロッキー。 0.61
[15] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, and K. Vesely, “The Kaldi Speech Recognition Toolkit,” in IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, K. Vesely, “The Kaldi Speech Recognition Toolkit” in IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. 0.94
IEEE Signal Processing Society, Dec. 2011, iEEE Catalog No. IEEE Signal Processing Society, Dec. 2011, iEEE Catalog No. 0.92
: CFP11SRW-USB. : CFP11SRW-USB。 0.53
[16] J. Duddington and R. Dunn, “eSpeak text to speech,” 2012. 16] J. Duddington and R. Dunn, “eSpeak text to speech” 2012年。 0.85
[Online]. Available: http://espeak.source forge.net [オンライン] 利用可能: http://espeak.source forge.net 0.60
           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。