論文の概要: ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.13352v1
- Date: Mon, 24 Oct 2022 15:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:48:14.595011
- Title: ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition
- Title(参考訳): ESB:マルチドメインエンドツーエンド音声認識のためのベンチマーク
- Authors: Sanchit Gandhi, Patrick von Platen and Alexander M. Rush
- Abstract要約: 音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
- 参考スコア(独自算出の注目度): 100.30565531246165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition applications cover a range of different audio and text
distributions, with different speaking styles, background noise, transcription
punctuation and character casing. However, many speech recognition systems
require dataset-specific tuning (audio filtering, punctuation removal and
normalisation of casing), therefore assuming a-priori knowledge of both the
audio and text distributions. This tuning requirement can lead to systems
failing to generalise to other datasets and domains. To promote the development
of multi-domain speech systems, we introduce the End-to-end Speech Benchmark
(ESB) for evaluating the performance of a single automatic speech recognition
(ASR) system across a broad set of speech datasets. Benchmarked systems must
use the same data pre- and post-processing algorithm across datasets - assuming
the audio and text data distributions are a-priori unknown. We compare a series
of state-of-the-art (SoTA) end-to-end (E2E) systems on this benchmark,
demonstrating how a single speech system can be applied and evaluated on a wide
range of data distributions. We find E2E systems to be effective across
datasets: in a fair comparison, E2E systems achieve within 2.6% of SoTA systems
tuned to a specific dataset. Our analysis reveals that transcription artefacts,
such as punctuation and casing, pose difficulties for ASR systems and should be
included in evaluation. We believe E2E benchmarking over a range of datasets
promotes the research of multi-domain speech recognition systems. ESB is
available at https://huggingface.co/esb.
- Abstract(参考訳): 音声認識アプリケーションは、様々な話し方、バックグラウンドノイズ、書き起こし句読点、文字のケーシングなど、様々な音声およびテキストの分布をカバーする。
しかし、多くの音声認識システムはデータセット固有のチューニング(オーディオフィルタリング、句読点除去、ケーシングの正規化)を必要とするため、オーディオとテキストの分布のaプライオリ知識を仮定している。
このチューニング要件により、システムは他のデータセットやドメインに一般化できない可能性がある。
マルチドメイン音声システムの開発を促進するため,広義の音声データセットを対象とした単一自動音声認識(ASR)システムの性能評価を行うエンド・ツー・エンド音声ベンチマーク(ESB)を導入する。
ベンチマークされたシステムは、データセット間で同じデータ前処理と後処理のアルゴリズムを使用する必要がある。
本ベンチマークでは,複数の最先端(SoTA)エンドツーエンド(E2E)システムを比較し,多種多様なデータ分布に対して単一音声システムを適用・評価する方法を示す。
公正な比較では、E2Eシステムは特定のデータセットに調整されたSoTAシステムの2.6%以内に達成される。
解析の結果, 句読点やケーシングなどの転写アーチファクトは, ASR システムでは困難であり, 評価に含めるべきであることが判明した。
様々なデータセットに対するE2Eベンチマークは、マルチドメイン音声認識システムの研究を促進すると考えている。
ESBはhttps://huggingface.co/esb.comで入手できる。
関連論文リスト
- Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。
本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文 参考訳(メタデータ) (2023-07-24T14:29:21Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Exploring Transfer Learning For End-to-End Spoken Language Understanding [8.317084844841323]
スピーチから仮説に直接移動するエンドツーエンド(E2E)システムは、より魅力的なオプションです。
音声からテキストまでの複数のタスクを共同トレーニングするE2Eシステムを提案する。
個々のタスクで訓練されたE2Eモデルの性能を上回ります。
論文 参考訳(メタデータ) (2020-12-15T19:02:15Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。