論文の概要: Rethinking Evaluation in ASR: Are Our Models Robust Enough?
- arxiv url: http://arxiv.org/abs/2010.11745v3
- Date: Sun, 2 May 2021 18:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:56:08.991636
- Title: Rethinking Evaluation in ASR: Are Our Models Robust Enough?
- Title(参考訳): ASRでの評価を再考する: 私たちのモデルはロバストか?
- Authors: Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Paden Tomasello,
Jacob Kahn, Gilad Avidov, Ronan Collobert, Gabriel Synnaeve
- Abstract要約: 一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。
ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
- 参考スコア(独自算出の注目度): 30.114009549372923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Is pushing numbers on a single benchmark valuable in automatic speech
recognition? Research results in acoustic modeling are typically evaluated
based on performance on a single dataset. While the research community has
coalesced around various benchmarks, we set out to understand generalization
performance in acoustic modeling across datasets - in particular, if models
trained on a single dataset transfer to other (possibly out-of-domain)
datasets. We show that, in general, reverberative and additive noise
augmentation improves generalization performance across domains. Further, we
demonstrate that when a large enough set of benchmarks is used, average word
error rate (WER) performance over them provides a good proxy for performance on
real-world noisy data. Finally, we show that training a single acoustic model
on the most widely-used datasets - combined - reaches competitive performance
on both research and real-world benchmarks.
- Abstract(参考訳): 単一のベンチマークでの数値の押し付けは音声認識に有用か?
音響モデリングの研究結果は通常、単一のデータセットのパフォーマンスに基づいて評価される。
研究コミュニティはさまざまなベンチマークを中心に活動していますが、データセット間の音響モデルにおける一般化のパフォーマンスを理解することにしました。
一般に,残響および付加音の増大により,領域間の一般化性能が向上することを示す。
さらに,大量のベンチマークが使用されると,平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータに優れたプロキシを提供することを示した。
最後に、最も広く使われているデータセットで単一の音響モデルをトレーニングすることで、研究と実世界のベンチマークの両方で競合するパフォーマンスに達することを示す。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation
using Generative Models [74.43215520371506]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。