Fugu-MT 論文翻訳(概要): WolBanking77: Wolof Banking Speech Intent Classification Dataset

論文の概要: WolBanking77: Wolof Banking Speech Intent Classification Dataset

arxiv url: http://arxiv.org/abs/2509.19271v1
Date: Tue, 23 Sep 2025 17:34:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-24 20:41:27.981211
Title: WolBanking77: Wolof Banking Speech Intent Classification Dataset
Title（参考訳）: WolBanking77:Wolof Banking Speech Intent Classification Dataset
Authors: Abdou Karim Kandji, Frédéric Precioso, Cheikh Ba, Samba Ndiaye, Augustin Ndione,
Abstract要約: 目的分類における学術研究のためのWolof Intent Classificationデータセット(WolBanking77)をリリースする。 WolBanking77は現在、銀行ドメインに9,791通のテキスト文と4時間以上の音声文が含まれている。 We report baseline f1-score and word error rate metrics respectively on NLP and ASR models training on WolBanking77 dataset。
参考スコア（独自算出の注目度）: 4.277048718296238
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Intent classification models have made a lot of progress in recent years. However, previous studies primarily focus on high-resource languages datasets, which results in a gap for low-resource languages and for regions with a high rate of illiterate people where languages are more spoken than read or written. This is the case in Senegal, for example, where Wolof is spoken by around 90\% of the population, with an illiteracy rate of 42\% for the country. Wolof is actually spoken by more than 10 million people in West African region. To tackle such limitations, we release a Wolof Intent Classification Dataset (WolBanking77), for academic research in intent classification. WolBanking77 currently contains 9,791 text sentences in the banking domain and more than 4 hours of spoken sentences. Experiments on various baselines are conducted in this work, including text and voice state-of-the-art models. The results are very promising on this current dataset. This paper also provides detailed analyses of the contents of the data. We report baseline f1-score and word error rate metrics respectively on NLP and ASR models trained on WolBanking77 dataset and also comparisons between models. We plan to share and conduct dataset maintenance, updates and to release open-source code.
Abstract（参考訳）: 初期分類モデルは近年多くの進歩を遂げている。しかし、以前の研究では主に、低リソース言語と読み書きよりも言語が話される頻度が高い地域においてギャップが生じている、高リソース言語データセットに焦点が当てられていた。例えばセネガルでは、Wolofが人口の約90% %、識字率は42 %である。 Wolofは実際に西アフリカ地域の1000万人以上の人々によって話されている。このような制約に対処するため,本研究では,意図的分類に関する学術研究のためのWolof Intent Classification Dataset (WolBanking77) をリリースする。 WolBanking77は現在、銀行ドメインに9,791通のテキスト文と4時間以上の音声文が含まれている。本研究では,テキスト・オブ・ザ・アート・モデルなど,様々なベースラインの実験を行った。結果は、この現在のデータセットで非常に有望です。また,本論文では,データの内容を詳細に分析する。 WolBanking77データセットでトレーニングされたNLPモデルとASRモデルに基づいて,それぞれベースラインf1スコアとワードエラー率のメトリクスを報告し,モデル間の比較を行った。データセットのメンテナンス、更新、オープンソースコードのリリースを共有し、実施する予定です。

関連論文リスト

Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。 RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文参考訳（メタデータ） (2025-05-25T23:06:20Z)
Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。低リソースのアフリカ言語にLLMを適用する方法について検討する。アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文参考訳（メタデータ） (2025-04-09T02:25:53Z)
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文参考訳（メタデータ） (2024-06-27T22:38:04Z)
Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context [2.3066058341851816]
アフリカ語のみに特化して訓練された最初の自己教師型多言語音声モデルを提案する。このモデルは、サハラ以南のアフリカで話されている21の言語と方言で、6万時間近い未ラベルの音声セグメントから学習された。
論文参考訳（メタデータ） (2024-04-02T14:43:36Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
ArBanking77: Intent Detection Neural Model and a New Dataset in Modern and Dialectical Arabic [0.4999814847776097]
本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットであるArBanking77について述べる。我々のデータセットは、現代標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリで、もともとのBritish Banking77データセットからアラベライズされ、ローカライズされた。 AraBERTに基づくニューラルネットワークをArBanking77で微調整し,MSAおよびパレスチナ方言で0.9209と0.8995のF1スコアを達成した。
論文参考訳（メタデータ） (2023-10-29T14:46:11Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling Corrector [0.40611352512781856]
特にアフリカの言語は依然として遅れており、自動処理ツールがない。合成データを生成することにより,データ不足に関連する制約に対処する方法を提案する。 We present sequence-to-sequence model using Deep Learning for spelling correct in Wolof。
論文参考訳（メタデータ） (2023-05-15T10:28:36Z)
MasakhaNEWS: News Topic Classification for African languages [15.487928928173098]
アフリカの言語は、いくつかのNLPタスクをカバーするデータセットが欠如しているため、NLP研究において非常に不足している。我々は,アフリカで広く話されている16言語を対象として,ニューストピック分類のための新しいベンチマークデータセットであるMashokhaNEWSを開発した。
論文参考訳（メタデータ） (2023-04-19T21:12:23Z)
An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文参考訳（メタデータ） (2021-03-10T16:36:39Z)
BanglaBERT: Combating Embedding Barrier for Low-Resource Language Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。本モデルは,多言語ベースラインを上回り,前回の結果を1～6%上回った。我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文参考訳（メタデータ） (2021-01-01T09:28:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。