論文の概要: WolBanking77: Wolof Banking Speech Intent Classification Dataset
- arxiv url: http://arxiv.org/abs/2509.19271v2
- Date: Wed, 22 Oct 2025 18:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:10.423419
- Title: WolBanking77: Wolof Banking Speech Intent Classification Dataset
- Title(参考訳): WolBanking77:Wolof Banking Speech Intent Classification Dataset
- Authors: Abdou Karim Kandji, Frédéric Precioso, Cheikh Ba, Samba Ndiaye, Augustin Ndione,
- Abstract要約: 目的分類における学術研究のために,Wolof Banking Speech Intent Classification データセット (WolBanking77) を導入する。
WolBanking77は現在、銀行ドメインに9,791通のテキスト文と4時間以上の音声文が含まれている。
WolBanking77データセットで学習したNLPモデルとASRモデルに基づいて,F1スコアと単語誤り率の基準値について報告する。
- 参考スコア(独自算出の注目度): 4.277048718296238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intent classification models have made a significant progress in recent years. However, previous studies primarily focus on high-resource language datasets, which results in a gap for low-resource languages and for regions with high rates of illiteracy, where languages are more spoken than read or written. This is the case in Senegal, for example, where Wolof is spoken by around 90\% of the population, while the national illiteracy rate remains at of 42\%. Wolof is actually spoken by more than 10 million people in West African region. To address these limitations, we introduce the Wolof Banking Speech Intent Classification Dataset (WolBanking77), for academic research in intent classification. WolBanking77 currently contains 9,791 text sentences in the banking domain and more than 4 hours of spoken sentences. Experiments on various baselines are conducted in this work, including text and voice state-of-the-art models. The results are very promising on this current dataset. In addition, this paper presents an in-depth examination of the dataset's contents. We report baseline F1-scores and word error rates metrics respectively on NLP and ASR models trained on WolBanking77 dataset and also comparisons between models. Dataset and code available at: \href{https://github.com/abdoukarim/wolbanking77}{wolbanking77}.
- Abstract(参考訳): 初期分類モデルは近年大きな進歩を遂げている。
しかし、以前の研究では主に、低リソース言語と、読み書きよりも言語が話されやすい、識字率の高い地域でのギャップをもたらす、高リソース言語データセットに焦点が当てられていた。
例えばセネガルでは、Wolofが人口の約90%で話されているのに対し、全国の識字率は42.5%である。
Wolofは実際に西アフリカ地域の1000万人以上の人々によって話されている。
これらの制約に対処するため、目的分類における学術研究のためのWolof Banking Speech Intent Classification Dataset (WolBanking77)を紹介する。
WolBanking77は現在、銀行ドメインに9,791通のテキスト文と4時間以上の音声文が含まれている。
本研究では,テキスト・オブ・ザ・アート・モデルなど,様々なベースラインの実験を行った。
結果は、この現在のデータセットで非常に有望です。
さらに,本論文では,データセットの内容について詳細に検討する。
我々は,WolBanking77データセットを用いて学習したNLPモデルとASRモデルに基づいて,ベースラインF1スコアと単語誤り率のメトリクスを報告し,モデル間の比較を行った。
データセットとコードは以下の通りである。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - ArBanking77: Intent Detection Neural Model and a New Dataset in Modern
and Dialectical Arabic [0.4999814847776097]
本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットであるArBanking77について述べる。
我々のデータセットは、現代標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリで、もともとのBritish Banking77データセットからアラベライズされ、ローカライズされた。
AraBERTに基づくニューラルネットワークをArBanking77で微調整し,MSAおよびパレスチナ方言で0.9209と0.8995のF1スコアを達成した。
論文 参考訳(メタデータ) (2023-10-29T14:46:11Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling
Corrector [0.40611352512781856]
特にアフリカの言語は依然として遅れており、自動処理ツールがない。
合成データを生成することにより,データ不足に関連する制約に対処する方法を提案する。
We present sequence-to-sequence model using Deep Learning for spelling correct in Wolof。
論文 参考訳(メタデータ) (2023-05-15T10:28:36Z) - MasakhaNEWS: News Topic Classification for African languages [15.487928928173098]
アフリカの言語は、いくつかのNLPタスクをカバーするデータセットが欠如しているため、NLP研究において非常に不足している。
我々は,アフリカで広く話されている16言語を対象として,ニューストピック分類のための新しいベンチマークデータセットであるMashokhaNEWSを開発した。
論文 参考訳(メタデータ) (2023-04-19T21:12:23Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。