論文の概要: Opportunities and Challenges of Natural Language Processing for Low-Resource Senegalese Languages in Social Science Research
- arxiv url: http://arxiv.org/abs/2601.09716v1
- Date: Wed, 24 Dec 2025 20:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.693696
- Title: Opportunities and Challenges of Natural Language Processing for Low-Resource Senegalese Languages in Social Science Research
- Title(参考訳): 社会科学研究における低資源セネガル語処理の可能性と課題
- Authors: Derguene Mbaye, Tatiana D. P. Mbengue, Madoune R. Seye, Moussa Diallo, Mamadou L. Ndiaye, Dimitri S. Adjanohoun, Cheikh S. Wade, Djiby Sow, Jean-Claude B. Munyaka, Jerome Chenal,
- Abstract要約: 本稿では,セネガル憲法で公式に認められた6つの国語(Wolof, Pulaar, Sereer, Joola, Mandingue, Soninke)の進歩と課題について概観する。
言語的・社会技術的・インフラ的要素を合成し、それらのデジタル準備性を形作り、データ、ツール、ベンチマークのギャップを識別する。
この論文は、セネガル語のための持続可能なコミュニティ中心のNLPエコシステムに向けたロードマップを概説することで締めくくっている。
- 参考スコア(独自算出の注目度): 0.6016863427924156
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Natural Language Processing (NLP) is rapidly transforming research methodologies across disciplines, yet African languages remain largely underrepresented in this technological shift. This paper provides the first comprehensive overview of NLP progress and challenges for the six national languages officially recognized by the Senegalese Constitution: Wolof, Pulaar, Sereer, Joola, Mandingue, and Soninke. We synthesize linguistic, sociotechnical, and infrastructural factors that shape their digital readiness and identify gaps in data, tools, and benchmarks. Building on existing initiatives and research works, we analyze ongoing efforts in text normalization, machine translation, and speech processing. We also provide a centralized GitHub repository that compiles publicly accessible resources for a range of NLP tasks across these languages, designed to facilitate collaboration and reproducibility. A special focus is devoted to the application of NLP to the social sciences, where multilingual transcription, translation, and retrieval pipelines can significantly enhance the efficiency and inclusiveness of field research. The paper concludes by outlining a roadmap toward sustainable, community-centered NLP ecosystems for Senegalese languages, emphasizing ethical data governance, open resources, and interdisciplinary collaboration.
- Abstract(参考訳): 自然言語処理(NLP)は、研究手法を分野によって急速に変化させつつあるが、アフリカの言語は、この技術的な変化において、ほとんど疎外されている。
本稿では,セネガル憲法で公式に認められた6つの国語(Wolof, Pulaar, Sereer, Joola, Mandingue, Soninke)について,NLPの進展と課題について概観する。
言語的・社会技術的・インフラ的要素を合成し、それらのデジタル準備性を形作り、データ、ツール、ベンチマークのギャップを識別する。
既存のイニシアチブと研究成果に基づいて,テキスト正規化,機械翻訳,音声処理の現在進行中の取り組みを分析した。
また、これらの言語にまたがるさまざまなNLPタスクに対して、公開アクセス可能なリソースをコンパイルする中央集権的なGitHubリポジトリも提供しています。
NLPの社会科学への応用に特に焦点が当てられ、多言語転写、翻訳、検索パイプラインは、フィールド研究の効率性と包括性を著しく向上させることができる。
この論文は、セネガル語のための持続可能なコミュニティ中心のNLPエコシステムへのロードマップを概説し、倫理的データガバナンス、オープンリソース、学際的なコラボレーションを強調している。
関連論文リスト
- HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing [5.5473811549393774]
Hausaは、世界で1億2000万の第一言語(L1)と8000万の第二言語(L2)を持つ低リソース言語である。
本稿では,Hausa NLPの現状を概観し,既存の資源,研究コントリビューション,基本的なNLPタスク間のギャップを体系的に検討する。
アクセシビリティを高め、さらなる開発を促進するために、データセット、ツール、研究成果を集約する、キュレートされたカタログであるHausaNLPを紹介します。
論文 参考訳(メタデータ) (2025-05-20T12:59:55Z) - Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - Real-Time Multilingual Sign Language Processing [4.626189039960495]
手話処理(SLP)は、自然言語処理(NLP)とコンピュータビジョンからなる学際分野である。
伝統的なアプローチは、言語固有のものであり、手話の多次元的な性質を捉えるのに不十分なグロスベースのシステムを使用することによって、しばしば制約されてきた。
本稿では,手話文字起こし表記システムであるSignWiringを,手話の視覚・ジェスチャーのモダリティとテキストに基づく言語表現の中間的リンクとして用いることを提案する。
論文 参考訳(メタデータ) (2024-12-02T21:51:41Z) - State of NLP in Kenya: A Survey [0.25454395163615406]
ケニアは言語多様性で知られており、自然言語処理の進歩において固有の課題と有望な機会に直面している。
本調査はケニアにおけるNLPの現状を詳細に評価する。
論文では、利用可能なデータセットと既存のNLPモデルを批判的に評価することで、大きなギャップを明らかにする。
論文 参考訳(メタデータ) (2024-10-13T18:08:24Z) - A Systematic Survey of Natural Language Processing for the Greek Language [2.3499129784547663]
本研究では,モノリンガルNLPサーベイのための一般化可能なフレームワークを提案する。
提案手法は,バイアスを最小限に抑えるために構造化された検索プロトコル,分類のためのNLPタスク分類,潜在的なベンチマークを特定するための言語資源を統合する。
この枠組みをギリシャのNLP(2012-2023)に適用し、現状、タスク固有の進捗状況、リソースギャップを詳細に分析する。
論文 参考訳(メタデータ) (2024-07-13T12:01:52Z) - The Ghanaian NLP Landscape: A First Look [9.17372840572907]
特にガーナ語は絶滅が記録され、いくつかは危険にさらされている。
本研究は、ガーナ語に焦点をあてた自然言語処理(NLP)研究の包括的調査のパイオニアである。
論文 参考訳(メタデータ) (2024-05-10T21:39:09Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - Ensuring the Inclusive Use of Natural Language Processing in the Global
Response to COVID-19 [58.720142291102135]
低リソース言語を網羅することで、現在のNLPアプローチと将来のNLPアプローチをより包括的に行う方法について議論する。
我々は,NLPの正の社会的影響を最大化することに関心のある研究者のために,いくつかの今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-08-11T12:54:26Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。