論文の概要: Supplementary Resources and Analysis for Automatic Speech Recognition Systems Trained on the Loquacious Dataset
- arxiv url: http://arxiv.org/abs/2512.17915v1
- Date: Thu, 27 Nov 2025 22:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.044616
- Title: Supplementary Resources and Analysis for Automatic Speech Recognition Systems Trained on the Loquacious Dataset
- Title(参考訳): ローカライズデータセットを用いた音声認識システムのための補助資源と解析
- Authors: Nick Rossenbach, Robin Schmitt, Tina Raissi, Simon Berger, Larissa Kleppel, Ralf Schlüter,
- Abstract要約: Loquaciousデータセットは、LibriSpeechやTED-Liumといった既存の英語自動音声認識(ASR)データセットを置き換えることを目的としている。
Loquaciousデータセットの主な目標は、多くの音響および言語ドメイン間で適切に定義されたトレーニングとテストのパーティションを提供することである。
我々は,N-gram Language Model (LM) , Grapheme-to-phoneme (G2P) モデル, 発音レキシカの形式で, オープンかつパブリックなアクセスを提供する。
- 参考スコア(独自算出の注目度): 17.057123247712443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently published Loquacious dataset aims to be a replacement for established English automatic speech recognition (ASR) datasets such as LibriSpeech or TED-Lium. The main goal of the Loquacious dataset is to provide properly defined training and test partitions across many acoustic and language domains, with an open license suitable for both academia and industry. To further promote the benchmarking and usability of this new dataset, we present additional resources in the form of n-gram language models (LMs), a grapheme-to-phoneme (G2P) model and pronunciation lexica, with open and public access. Utilizing those additional resources we show experimental results across a wide range of ASR architectures with different label units and topologies. Our initial experimental results indicate that the Loquacious dataset offers a valuable study case for a variety of common challenges in ASR.
- Abstract(参考訳): 最近公開されたLoquaciousデータセットは、LibriSpeechやTED-Liumといった既存の英語自動音声認識(ASR)データセットを置き換えることを目的としている。
Loquaciousデータセットの主な目標は、多くの音響および言語ドメイン間で適切に定義されたトレーニングとテストのパーティションを提供することである。
この新たなデータセットのベンチマークとユーザビリティをさらに促進するため、オープンかつパブリックなアクセスで、n-gram言語モデル(LM)、G2P(Grapheme-to-phoneme)モデル、発音レキシカの形式で追加のリソースを提供する。
これらの追加資源を利用することで、異なるラベル単位とトポロジを持つ広範囲のASRアーキテクチャの実験結果を示す。
最初の実験結果は、LoquaciousデータセットがASRの様々な共通課題に対して貴重な研究ケースを提供することを示している。
関連論文リスト
- Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。
Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文 参考訳(メタデータ) (2025-05-15T16:31:49Z) - RedStone: Curating General, Code, Math, and QA Data for Large Language Models [134.49774529790693]
本研究では,大規模言語モデルを事前学習するための包括的かつ柔軟なリソースとして,Common Crawlの未完成の可能性を探る。
私たちは、Common Crawlからデータを抽出し、処理するために設計された、革新的でスケーラブルなパイプラインであるRedStoneを紹介します。
論文 参考訳(メタデータ) (2024-12-04T15:27:39Z) - Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets [22.29915616018026]
LLM(Large Language Models)は、様々なNLPタスクにおいて非並列の有効性を示す。
本研究の目的は,音声エンコーダ,LLM,プロジェクタモジュールの様々な構成の影響を評価することである。
本研究では,3段階の学習手法を導入し,モデルが聴覚情報とテキスト情報を整合させる能力を高めることを目的とした。
論文 参考訳(メタデータ) (2024-05-03T14:35:58Z) - Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition [10.244515100904144]
本研究では,大規模ドメインに依存しないASRデータセットを構築するための擬似ラベル手法を提案する。
さまざまな話題,話し方,方言,騒々しい環境,会話シナリオを含む20k時間以上のラベル付きバングラ音声データセットを開発した。
トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。
本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-06T15:37:14Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。