論文の概要: BEA-Base: A Benchmark for ASR of Spontaneous Hungarian
- arxiv url: http://arxiv.org/abs/2202.00601v1
- Date: Tue, 1 Feb 2022 17:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 13:51:06.211801
- Title: BEA-Base: A Benchmark for ASR of Spontaneous Hungarian
- Title(参考訳): BEA-Base: 自発ハンガリーのASRベンチマーク
- Authors: P. Mihajlik, A. Balog, T. E. Gr\'aczi, A. Koh\'ari, B. Tarj\'an and K.
M\'ady
- Abstract要約: BEA音声ハンガリー語データベースのサブセットであるBEA-Baseについて紹介する。
主に会話型AIアプリケーションを対象とした自動音声認識の評価に特化して構築されている。
ハンガリー語音声認識システムの訓練と評価にBEA-Baseを用いることの可能性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hungarian is spoken by 15 million people, still, easily accessible Automatic
Speech Recognition (ASR) benchmark datasets - especially for spontaneous speech
- have been practically unavailable. In this paper, we introduce BEA-Base, a
subset of the BEA spoken Hungarian database comprising mostly spontaneous
speech of 140 speakers. It is built specifically to assess ASR, primarily for
conversational AI applications. After defining the speech recognition subsets
and task, several baselines - including classic HMM-DNN hybrid and end-to-end
approaches augmented by cross-language transfer learning - are developed using
open-source toolkits. The best results obtained are based on multilingual
self-supervised pretraining, achieving a 45% recognition error rate reduction
as compared to the classical approach - without the application of an external
language model or additional supervised data. The results show the feasibility
of using BEA-Base for training and evaluation of Hungarian speech recognition
systems.
- Abstract(参考訳): ハンガリー語は1500万人によって話されていますが、asr(asr)ベンチマークデータセット(特に自発的な音声)は事実上利用できませんでした。
本稿では,主に140人の話者の自発的な発話を含むBEA音声ハンガリー語データベースのサブセットであるBEA-Baseを紹介する。
ASR(主に会話型AIアプリケーション)を評価するために開発された。
音声認識サブセットとタスクを定義した後、オープンソースのツールキットを用いて、古典的HMM-DNNハイブリッドやエンドツーエンドのアプローチを含むいくつかのベースラインを開発する。
得られた最良の結果は、外部言語モデルや追加の教師付きデータを適用することなく、従来の手法と比較して45%の認識誤差率の削減を達成する多言語自己教師付き事前学習に基づいている。
その結果,beaベースを用いたハンガリー音声認識システムの学習と評価が可能となった。
関連論文リスト
- Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Towards hate speech detection in low-resource languages: Comparing ASR
to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。
1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。
音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文 参考訳(メタデータ) (2023-06-01T07:25:10Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Streaming Language Identification using Combination of Acoustic
Representations and ASR Hypotheses [13.976935216584298]
多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行することである。
本研究では,音響レベルの表現とASR仮説に基づく埋め込みを学習し,組み合わせる手法を提案する。
処理コストとレイテンシを低減するため,我々はストリーミングアーキテクチャを利用して音声言語を早期に識別する。
論文 参考訳(メタデータ) (2020-06-01T04:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。