論文の概要: Earnings-21: A Practical Benchmark for ASR in the Wild
- arxiv url: http://arxiv.org/abs/2104.11348v1
- Date: Thu, 22 Apr 2021 23:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 20:53:30.157281
- Title: Earnings-21: A Practical Benchmark for ASR in the Wild
- Title(参考訳): Earnings-21: 野生におけるASRの実践的ベンチマーク
- Authors: Miguel Del Rio, Natalie Delworth, Ryan Westerman, Michelle Huang,
Nishchal Bhandari, Joseph Palakapilly, Quinten McNamara, Joshua Dong, Piotr
Zelasko, Miguel Jette
- Abstract要約: Earnings-21は、9つの異なる金融セクターからのエンティティディセンススピーチを含む39時間の収益コールコーパスです。
我々は、4つの商用ASRモデル、オープンソースツールで構築された2つの内部モデル、オープンソースのLibriSpeechモデルをベンチマークする。
解析の結果,特定のnerカテゴリのasr精度は低く,理解と使用の書き起こしに重大な障害が生じた。
- 参考スコア(独自算出の注目度): 4.091202801240259
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Commonly used speech corpora inadequately challenge academic and commercial
ASR systems. In particular, speech corpora lack metadata needed for detailed
analysis and WER measurement. In response, we present Earnings-21, a 39-hour
corpus of earnings calls containing entity-dense speech from nine different
financial sectors. This corpus is intended to benchmark ASR systems in the wild
with special attention towards named entity recognition. We benchmark four
commercial ASR models, two internal models built with open-source tools, and an
open-source LibriSpeech model and discuss their differences in performance on
Earnings-21. Using our recently released fstalign tool, we provide a candid
analysis of each model's recognition capabilities under different partitions.
Our analysis finds that ASR accuracy for certain NER categories is poor,
presenting a significant impediment to transcript comprehension and usage.
Earnings-21 bridges academic and commercial ASR system evaluation and enables
further research on entity modeling and WER on real world audio.
- Abstract(参考訳): 一般的な音声コーパスは、学術的および商業的なASRシステムに不適当に挑戦する。
特に、音声コーパスには詳細な分析やWER測定に必要なメタデータがない。
これに応えて、9つの金融セクターのエンティティ・ディエンス・スピーチを含む39時間の収支表であるEarnings-21を提示する。
このコーパスは、名前付きエンティティ認識に特に注意を払って、野生のasrシステムをベンチマークすることを目的としている。
我々は、4つの商用ASRモデル、オープンソースツールで構築された2つの内部モデル、オープンソースのLibriSpeechモデルをベンチマークし、Earnings-21の性能差について議論する。
最近リリースしたfstalignツールを使用して、各モデルの認識能力を異なるパーティション下で率直に分析する。
解析の結果,特定のnerカテゴリのasr精度は低く,理解と使用の書き起こしに重大な障害が生じた。
Earnings-21は学術的および商業的なASRシステム評価を橋渡しし、実世界のオーディオにおけるエンティティモデリングとWERのさらなる研究を可能にする。
関連論文リスト
- Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。
本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:59:25Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Earnings-22: A Practical Benchmark for Accents in the Wild [0.8039067099377079]
Earnings-22は125のファイルで、119時間に119回の英語による決算報告を世界企業から集めています。
個々の単語誤り率(IWER)を調べることで、重要な音声特徴が特定のアクセントに対して、他のアクセントよりもモデル性能に影響を及ぼすことが分かる。
論文 参考訳(メタデータ) (2022-03-29T14:02:57Z) - Fusing ASR Outputs in Joint Training for Speech Emotion Recognition [14.35400087127149]
共同学習音声認識(SER)のためのパイプラインに自動音声認識(ASR)出力を融合する手法を提案する。
共同ASR-SERトレーニングでは、階層的コアテンション融合アプローチを用いて、ASRとテキストの出力の両方を組み込むことで、SERの性能が向上する。
また,IEMOCAPにおける単語誤り率解析や,ASRとSERの関係をよりよく理解するために,Wav2vec 2.0モデルの層差解析も提案する。
論文 参考訳(メタデータ) (2021-10-29T11:21:17Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。