論文の概要: Opportunities and Challenges of Natural Language Processing for Low-Resource Senegalese Languages in Social Science Research
- arxiv url: http://arxiv.org/abs/2601.09716v1
- Date: Wed, 24 Dec 2025 20:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.693696
- Title: Opportunities and Challenges of Natural Language Processing for Low-Resource Senegalese Languages in Social Science Research
- Title(参考訳): 社会科学研究における低資源セネガル語処理の可能性と課題
- Authors: Derguene Mbaye, Tatiana D. P. Mbengue, Madoune R. Seye, Moussa Diallo, Mamadou L. Ndiaye, Dimitri S. Adjanohoun, Cheikh S. Wade, Djiby Sow, Jean-Claude B. Munyaka, Jerome Chenal,
- Abstract要約: 本稿では,セネガル憲法で公式に認められた6つの国語(Wolof, Pulaar, Sereer, Joola, Mandingue, Soninke)の進歩と課題について概観する。
言語的・社会技術的・インフラ的要素を合成し、それらのデジタル準備性を形作り、データ、ツール、ベンチマークのギャップを識別する。
この論文は、セネガル語のための持続可能なコミュニティ中心のNLPエコシステムに向けたロードマップを概説することで締めくくっている。
- 参考スコア(独自算出の注目度): 0.6016863427924156
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Natural Language Processing (NLP) is rapidly transforming research methodologies across disciplines, yet African languages remain largely underrepresented in this technological shift. This paper provides the first comprehensive overview of NLP progress and challenges for the six national languages officially recognized by the Senegalese Constitution: Wolof, Pulaar, Sereer, Joola, Mandingue, and Soninke. We synthesize linguistic, sociotechnical, and infrastructural factors that shape their digital readiness and identify gaps in data, tools, and benchmarks. Building on existing initiatives and research works, we analyze ongoing efforts in text normalization, machine translation, and speech processing. We also provide a centralized GitHub repository that compiles publicly accessible resources for a range of NLP tasks across these languages, designed to facilitate collaboration and reproducibility. A special focus is devoted to the application of NLP to the social sciences, where multilingual transcription, translation, and retrieval pipelines can significantly enhance the efficiency and inclusiveness of field research. The paper concludes by outlining a roadmap toward sustainable, community-centered NLP ecosystems for Senegalese languages, emphasizing ethical data governance, open resources, and interdisciplinary collaboration.
- Abstract(参考訳): 自然言語処理(NLP)は、研究手法を分野によって急速に変化させつつあるが、アフリカの言語は、この技術的な変化において、ほとんど疎外されている。
本稿では,セネガル憲法で公式に認められた6つの国語(Wolof, Pulaar, Sereer, Joola, Mandingue, Soninke)について,NLPの進展と課題について概観する。
言語的・社会技術的・インフラ的要素を合成し、それらのデジタル準備性を形作り、データ、ツール、ベンチマークのギャップを識別する。
既存のイニシアチブと研究成果に基づいて,テキスト正規化,機械翻訳,音声処理の現在進行中の取り組みを分析した。
また、これらの言語にまたがるさまざまなNLPタスクに対して、公開アクセス可能なリソースをコンパイルする中央集権的なGitHubリポジトリも提供しています。
NLPの社会科学への応用に特に焦点が当てられ、多言語転写、翻訳、検索パイプラインは、フィールド研究の効率性と包括性を著しく向上させることができる。
この論文は、セネガル語のための持続可能なコミュニティ中心のNLPエコシステムへのロードマップを概説し、倫理的データガバナンス、オープンリソース、学際的なコラボレーションを強調している。
関連論文リスト
- HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing [5.5473811549393774]
Hausaは、世界で1億2000万の第一言語(L1)と8000万の第二言語(L2)を持つ低リソース言語である。
本稿では,Hausa NLPの現状を概観し,既存の資源,研究コントリビューション,基本的なNLPタスク間のギャップを体系的に検討する。
アクセシビリティを高め、さらなる開発を促進するために、データセット、ツール、研究成果を集約する、キュレートされたカタログであるHausaNLPを紹介します。
論文 参考訳(メタデータ) (2025-05-20T12:59:55Z) - Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - A Systematic Survey of Natural Language Processing for the Greek Language [2.3499129784547663]
本研究では,モノリンガルNLPサーベイのための一般化可能なフレームワークを提案する。
提案手法は,バイアスを最小限に抑えるために構造化された検索プロトコル,分類のためのNLPタスク分類,潜在的なベンチマークを特定するための言語資源を統合する。
この枠組みをギリシャのNLP(2012-2023)に適用し、現状、タスク固有の進捗状況、リソースギャップを詳細に分析する。
論文 参考訳(メタデータ) (2024-07-13T12:01:52Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。