論文の概要: WolBanking77: Wolof Banking Speech Intent Classification Dataset
- arxiv url: http://arxiv.org/abs/2509.19271v1
- Date: Tue, 23 Sep 2025 17:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.981211
- Title: WolBanking77: Wolof Banking Speech Intent Classification Dataset
- Title(参考訳): WolBanking77:Wolof Banking Speech Intent Classification Dataset
- Authors: Abdou Karim Kandji, Frédéric Precioso, Cheikh Ba, Samba Ndiaye, Augustin Ndione,
- Abstract要約: 目的分類における学術研究のためのWolof Intent Classificationデータセット(WolBanking77)をリリースする。
WolBanking77は現在、銀行ドメインに9,791通のテキスト文と4時間以上の音声文が含まれている。
We report baseline f1-score and word error rate metrics respectively on NLP and ASR models training on WolBanking77 dataset。
- 参考スコア(独自算出の注目度): 4.277048718296238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intent classification models have made a lot of progress in recent years. However, previous studies primarily focus on high-resource languages datasets, which results in a gap for low-resource languages and for regions with a high rate of illiterate people where languages are more spoken than read or written. This is the case in Senegal, for example, where Wolof is spoken by around 90\% of the population, with an illiteracy rate of 42\% for the country. Wolof is actually spoken by more than 10 million people in West African region. To tackle such limitations, we release a Wolof Intent Classification Dataset (WolBanking77), for academic research in intent classification. WolBanking77 currently contains 9,791 text sentences in the banking domain and more than 4 hours of spoken sentences. Experiments on various baselines are conducted in this work, including text and voice state-of-the-art models. The results are very promising on this current dataset. This paper also provides detailed analyses of the contents of the data. We report baseline f1-score and word error rate metrics respectively on NLP and ASR models trained on WolBanking77 dataset and also comparisons between models. We plan to share and conduct dataset maintenance, updates and to release open-source code.
- Abstract(参考訳): 初期分類モデルは近年多くの進歩を遂げている。
しかし、以前の研究では主に、低リソース言語と読み書きよりも言語が話される頻度が高い地域においてギャップが生じている、高リソース言語データセットに焦点が当てられていた。
例えばセネガルでは、Wolofが人口の約90% %、識字率は42 %である。
Wolofは実際に西アフリカ地域の1000万人以上の人々によって話されている。
このような制約に対処するため,本研究では,意図的分類に関する学術研究のためのWolof Intent Classification Dataset (WolBanking77) をリリースする。
WolBanking77は現在、銀行ドメインに9,791通のテキスト文と4時間以上の音声文が含まれている。
本研究では,テキスト・オブ・ザ・アート・モデルなど,様々なベースラインの実験を行った。
結果は、この現在のデータセットで非常に有望です。
また,本論文では,データの内容を詳細に分析する。
WolBanking77データセットでトレーニングされたNLPモデルとASRモデルに基づいて,それぞれベースラインf1スコアとワードエラー率のメトリクスを報告し,モデル間の比較を行った。
データセットのメンテナンス、更新、オープンソースコードのリリースを共有し、実施する予定です。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - ArBanking77: Intent Detection Neural Model and a New Dataset in Modern
and Dialectical Arabic [0.4999814847776097]
本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットであるArBanking77について述べる。
我々のデータセットは、現代標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリで、もともとのBritish Banking77データセットからアラベライズされ、ローカライズされた。
AraBERTに基づくニューラルネットワークをArBanking77で微調整し,MSAおよびパレスチナ方言で0.9209と0.8995のF1スコアを達成した。
論文 参考訳(メタデータ) (2023-10-29T14:46:11Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling
Corrector [0.40611352512781856]
特にアフリカの言語は依然として遅れており、自動処理ツールがない。
合成データを生成することにより,データ不足に関連する制約に対処する方法を提案する。
We present sequence-to-sequence model using Deep Learning for spelling correct in Wolof。
論文 参考訳(メタデータ) (2023-05-15T10:28:36Z) - MasakhaNEWS: News Topic Classification for African languages [15.487928928173098]
アフリカの言語は、いくつかのNLPタスクをカバーするデータセットが欠如しているため、NLP研究において非常に不足している。
我々は,アフリカで広く話されている16言語を対象として,ニューストピック分類のための新しいベンチマークデータセットであるMashokhaNEWSを開発した。
論文 参考訳(メタデータ) (2023-04-19T21:12:23Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。