論文の概要: Advancing Conversational AI with Shona Slang: A Dataset and Hybrid Model for Digital Inclusion
- arxiv url: http://arxiv.org/abs/2509.14249v1
- Date: Wed, 10 Sep 2025 15:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.871529
- Title: Advancing Conversational AI with Shona Slang: A Dataset and Hybrid Model for Digital Inclusion
- Title(参考訳): Shona Slangによる会話型AIの強化 - ディジタルインクルージョンのためのデータセットとハイブリッドモデル
- Authors: Happymore Masoka,
- Abstract要約: この研究は、ソーシャルメディアの会話からキュレートされた、ショーナ・イングリッシュスラング・データセットを導入している。
データセットには、意図、感情、対話行動、コードミキシング、トーンが注釈付けされている。
目的認識のための多言語DistilBERT分類器を微調整し,96.4%の精度と96.3%のF1スコアを得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: African languages remain underrepresented in natural language processing (NLP), with most corpora limited to formal registers that fail to capture the vibrancy of everyday communication. This work addresses this gap for Shona, a Bantu language spoken in Zimbabwe and Zambia, by introducing a novel Shona--English slang dataset curated from anonymized social media conversations. The dataset is annotated for intent, sentiment, dialogue acts, code-mixing, and tone, and is publicly available at https://github.com/HappymoreMasoka/Working_with_shona-slang. We fine-tuned a multilingual DistilBERT classifier for intent recognition, achieving 96.4\% accuracy and 96.3\% F1-score, hosted at https://huggingface.co/HappymoreMasoka. This classifier is integrated into a hybrid chatbot that combines rule-based responses with retrieval-augmented generation (RAG) to handle domain-specific queries, demonstrated through a use case assisting prospective students with graduate program information at Pace University. Qualitative evaluation shows the hybrid system outperforms a RAG-only baseline in cultural relevance and user engagement. By releasing the dataset, model, and methodology, this work advances NLP resources for African languages, promoting inclusive and culturally resonant conversational AI.
- Abstract(参考訳): アフリカの言語は、自然言語処理(NLP)では表現されていないが、ほとんどのコーパスは、日常的なコミュニケーションの活力の獲得に失敗する形式的なレジスタに限られている。
この研究は、ジンバブエとザンビアで話されているバントゥー語であるShonaのこのギャップに対処する。
データセットはインテント、感情、ダイアログ、コードミキシング、トーン用に注釈付けされており、https://github.com/HappymoreMasoka/Working_with_shona-slangで公開されている。
我々は、意図認識のための多言語DistilBERT分類器を微調整し、https://huggingface.co/HappymoreMasokaでホストされた96.4\%の精度と96.3\%のF1スコアを得た。
この分類器は、ルールベースの応答と検索拡張生成(RAG)を組み合わせてドメイン固有のクエリを処理するハイブリッドチャットボットに統合され、Pace Universityの大学院プログラム情報を持つ有望な学生を支援するユースケースを通じて実証される。
質的な評価は、ハイブリッドシステムは文化的関連性とユーザエンゲージメントにおいてRAGのみのベースラインを上回っていることを示している。
データセット、モデル、方法論をリリースすることにより、この研究はアフリカ言語のためのNLPリソースを前進させ、包括的で文化的に共鳴する会話AIを促進する。
関連論文リスト
- Large Language Model Data Generation for Enhanced Intent Recognition in German Speech [14.788624194380825]
音声コマンドのインテント認識(IR)は人工知能(AI)アシスタントシステムに不可欠である。
本稿では,高齢者のドイツ語音声を微調整したWhisper ASRモデルを組み合わせた新しい手法を提案する。
合成音声をテキスト音声モデルで生成し、広範囲なクロスデータセットテストを行う。
論文 参考訳(メタデータ) (2025-08-08T12:54:09Z) - Sample-Efficient Language Model for Hinglish Conversational AI [0.0]
Hinglishはヒンディー語と英語を組み合わせたコード混合言語である。
提案手法は、既存のHinglishデータセットからの洞察と合成生成された対話を統合して、データの不足に対処する。
実験結果から, パラメータが少ないモデルでは, 高品質なコード混合データに対して適切に微調整を行うと, 競争性能が向上することが示された。
論文 参考訳(メタデータ) (2025-04-27T01:35:22Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。