論文の概要: Framework for Curating Speech Datasets and Evaluating ASR Systems: A Case Study for Polish
- arxiv url: http://arxiv.org/abs/2408.00005v1
- Date: Thu, 18 Jul 2024 21:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 05:28:21.300220
- Title: Framework for Curating Speech Datasets and Evaluating ASR Systems: A Case Study for Polish
- Title(参考訳): 音声データセットの計算とASRシステム評価のためのフレームワーク:ポーランドのケーススタディ
- Authors: Michał Junczyk,
- Abstract要約: パブリックドメインで利用可能な音声データセットは、発見可能性と相互運用性の課題のために、しばしば利用されていない。
利用可能な音声データセットを調査し、カタログ化し、キュレートするための包括的なフレームワークが設計されている。
この研究は、ポーランド語における商用および無料のASRシステムの日付と比較して最も広範な比較である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech datasets available in the public domain are often underutilized because of challenges in discoverability and interoperability. A comprehensive framework has been designed to survey, catalog, and curate available speech datasets, which allows replicable evaluation of automatic speech recognition (ASR) systems. A case study focused on the Polish language was conducted; the framework was applied to curate more than 24 datasets and evaluate 25 combinations of ASR systems and models. This research constitutes the most extensive comparison to date of both commercial and free ASR systems for the Polish language. It draws insights from 600 system-model-test set evaluations, marking a significant advancement in both scale and comprehensiveness. The results of surveys and performance comparisons are available as interactive dashboards (https://huggingface.co/spaces/amu-cai/pl-asr-leaderboard) along with curated datasets (https://huggingface.co/datasets/amu-cai/pl-asr-bigos-v2, https://huggingface.co/datasets/pelcra/pl-asr-pelcra-for-bigos) and the open challenge call (https://poleval.pl/tasks/task3). Tools used for evaluation are open-sourced (https://github.com/goodmike31/pl-asr-bigos-tools), facilitating replication and adaptation for other languages, as well as continuous expansion with new datasets and systems.
- Abstract(参考訳): パブリックドメインで利用可能な音声データセットは、発見可能性と相互運用性の課題のために、しばしば利用されていない。
利用可能な音声データセットを調査し、カタログ化し、キュレートするための包括的なフレームワークが設計されており、自動音声認識(ASR)システムの複製可能な評価を可能にしている。
ポーランド語に焦点を当てたケーススタディを行い、24以上のデータセットをキュレートし、ASRシステムとモデルを25組み合わせて評価した。
この研究は、ポーランド語における商用および無料のASRシステムの日付と比較して最も広範な比較である。
600のシステムモデル-テストセットの評価から洞察を得ており、スケールと包括性の両方において大きな進歩を示している。
インタラクティブなダッシュボード(https://huggingface.co/spaces/amu-cai/pl-asr- Leaderboard)と、キュレートされたデータセット(https://huggingface.co/datasets/amu-cai/pl-asr-bigos-v2, https://huggingface.co/datasets/pelcra/pl-asr-pelcra-for-bigos)、オープンなチャレンジコール(https://poleval.pl/tasks/task3)として提供される。
評価に使用されるツールはオープンソース(https://github.com/goodmike31/pl-asr-bigos-tools)で、他の言語へのレプリケーションと適応を容易にし、新しいデータセットやシステムによる継続的拡張が可能である。
関連論文リスト
- AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech
Recognition Evaluation [7.640323749917747]
SpeechColab Leaderboardは、ASR評価用に設計された汎用オープンソースプラットフォームである。
我々は、ASRシステムにおける最先端のパノラマについて、包括的なベンチマークを報告した。
スコアリングパイプラインにおける異なるニュアンスが最終的なベンチマーク結果にどのように影響するかを定量化する。
論文 参考訳(メタデータ) (2024-03-13T02:41:53Z) - Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition [10.244515100904144]
本研究では,大規模ドメインに依存しないASRデータセットを構築するための擬似ラベル手法を提案する。
さまざまな話題,話し方,方言,騒々しい環境,会話シナリオを含む20k時間以上のラベル付きバングラ音声データセットを開発した。
トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。
本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-06T15:37:14Z) - ADMUS: A Progressive Question Answering Framework Adaptable to Multiple
Knowledge Sources [9.484792817869671]
ADMUSは,多様なデータセットに対応するために設計された,プログレッシブな知識ベース質問応答フレームワークである。
我々のフレームワークは、最小限の労力で、新しいデータセットのシームレスな統合をサポートします。
論文 参考訳(メタデータ) (2023-08-09T08:46:39Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Integrating Categorical Features in End-to-End ASR [1.332560004325655]
全神経終末のASRシステムは、単一のトレーニング可能なニューラルネットワークモデルを用いて音声入力をテキスト単位に変換する。
E2Eモデルは、入手するのに高価な大量のペア音声テキストデータを必要とする。
分類的特徴をE2Eモデルに組み込む方法を提案する。
論文 参考訳(メタデータ) (2021-10-06T20:07:53Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - CRSLab: An Open-Source Toolkit for Building Conversational Recommender
System [57.208266345350474]
会話推薦システム(CRS)は、研究コミュニティで多くの注目を集めています。
crsに関する既存の研究はシナリオ、目標、技術によって異なり、統一された実装や比較が欠けている。
オープンソースCRSツールキットCRSLabを提案し、CRSを開発するために高度に分離されたモジュールを備えた統合フレームワークを提供する。
論文 参考訳(メタデータ) (2021-01-04T13:10:31Z) - The OARF Benchmark Suite: Characterization and Implications for
Federated Learning Systems [41.90546696412147]
Open Application Repository for Federated Learning (OARF)は、フェデレートされた機械学習システムのためのベンチマークスイートである。
OARFは、画像、テキスト、構造化データの異なるデータサイロとして、公開データセットを使って、より現実的なアプリケーションシナリオを模倣します。
論文 参考訳(メタデータ) (2020-06-14T10:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。