論文の概要: SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech
Recognition Evaluation
- arxiv url: http://arxiv.org/abs/2403.08196v1
- Date: Wed, 13 Mar 2024 02:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:49:53.892681
- Title: SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech
Recognition Evaluation
- Title(参考訳): SpeechColab Leaderboard - 自動音声のためのオープンソースプラットフォーム
認識評価
- Authors: Jiayu Du, Jinpeng Li, Guoguo Chen, and Wei-Qiang Zhang
- Abstract要約: SpeechColab Leaderboardは、ASR評価用に設計された汎用オープンソースプラットフォームである。
我々は、ASRシステムにおける最先端のパノラマについて、包括的なベンチマークを報告した。
スコアリングパイプラインにおける異なるニュアンスが最終的なベンチマーク結果にどのように影響するかを定量化する。
- 参考スコア(独自算出の注目度): 7.640323749917747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the wake of the surging tide of deep learning over the past decade,
Automatic Speech Recognition (ASR) has garnered substantial attention, leading
to the emergence of numerous publicly accessible ASR systems that are actively
being integrated into our daily lives. Nonetheless, the impartial and
replicable evaluation of these ASR systems encounters challenges due to various
crucial subtleties. In this paper we introduce the SpeechColab Leaderboard, a
general-purpose, open-source platform designed for ASR evaluation. With this
platform: (i) We report a comprehensive benchmark, unveiling the current
state-of-the-art panorama for ASR systems, covering both open-source models and
industrial commercial services. (ii) We quantize how distinct nuances in the
scoring pipeline influence the final benchmark outcomes. These include nuances
related to capitalization, punctuation, interjection, contraction, synonym
usage, compound words, etc. These issues have gained prominence in the context
of the transition towards an End-to-End future. (iii) We propose a practical
modification to the conventional Token-Error-Rate (TER) evaluation metric, with
inspirations from Kolmogorov complexity and Normalized Information Distance
(NID). This adaptation, called modified-TER (mTER), achieves proper
normalization and symmetrical treatment of reference and hypothesis. By
leveraging this platform as a large-scale testing ground, this study
demonstrates the robustness and backward compatibility of mTER when compared to
TER. The SpeechColab Leaderboard is accessible at
https://github.com/SpeechColab/Leaderboard
- Abstract(参考訳): 過去10年間の深層学習の潮流の高まりを受けて、自動音声認識(ASR)は大きな注目を集め、日々の生活に積極的に組み込まれている多くの公的なASRシステムの出現につながった。
それでも、これらのASRシステムの公平かつ複製可能な評価は、様々な重要な微妙さのために困難に直面している。
本稿では,ASR評価のための汎用オープンソースプラットフォームであるSpeechColab Leaderboardを紹介する。
このプラットフォームで
(i)オープンソースモデルと産業用商用サービスの両方をカバーする,ASRシステムにおける最先端のパノラマを概説した総合ベンチマークを報告する。
(ii) スコアリングパイプラインにおける異なるニュアンスが最終的なベンチマーク結果にどのように影響するかを定量化する。
これには、資本化、句読化、介入、縮小、同義語の使用、複合語などに関連するニュアンスが含まれる。
これらの問題は、エンド・ツー・エンドの未来への移行という文脈で注目されている。
3) コルモゴロフ複雑性と正規化情報距離(NID)からインスピレーションを得て, 従来のToken-Error-Rate(TER)評価尺度の実践的な修正を提案する。
この適応はmodified-TER (mTER) と呼ばれ、適切な正規化と参照と仮説の対称的処理を実現する。
このプラットフォームを大規模試験場として活用することにより、TERと比較してmTERの堅牢性と後方互換性を示す。
SpeechColab Leaderboardはhttps://github.com/SpeechColab/Leaderboardでアクセスできる
関連論文リスト
- Framework for Curating Speech Datasets and Evaluating ASR Systems: A Case Study for Polish [0.0]
パブリックドメインで利用可能な音声データセットは、発見可能性と相互運用性の課題のために、しばしば利用されていない。
利用可能な音声データセットを調査し、カタログ化し、キュレートするための包括的なフレームワークが設計されている。
この研究は、ポーランド語における商用および無料のASRシステムの日付と比較して最も広範な比較である。
論文 参考訳(メタデータ) (2024-07-18T21:32:12Z) - Automatic Speech Recognition System-Independent Word Error Rate Estimation [23.25173244408922]
単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。
本稿では,ASRシステムに依存しないWER推定のための仮説生成手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T16:57:05Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - WER we are and WER we think we are [11.819335591315316]
我々は、ベンチマークデータセット上の最新の自動音声認識(ASR)システムによって達成された、非常に低い単語誤り率(WER)に関する最近の報告に対する懐疑論を表現している。
我々は、実生活における自然会話とHUB'05公開ベンチマークのデータセット上で、最先端の商用ASRシステム3つを比較した。
我々は、堅牢なASRシステムのトレーニングとテストのための高品質なアノテーションを備えた実生活のマルチドメインデータセットの作成を支援する一連のガイドラインを定式化する。
論文 参考訳(メタデータ) (2020-10-07T14:20:31Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。