論文の概要: Building low-resource African language corpora: A case study of Kidawida, Kalenjin and Dholuo
- arxiv url: http://arxiv.org/abs/2501.11003v1
- Date: Sun, 19 Jan 2025 10:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:21.828147
- Title: Building low-resource African language corpora: A case study of Kidawida, Kalenjin and Dholuo
- Title(参考訳): 低資源アフリカ語コーパスの構築:キダウィダ、カレンジン、ドルーオを事例として
- Authors: Audrey Mbogho, Quin Awuor, Andrew Kipkebut, Lilian Wanzare, Vivian Oloo,
- Abstract要約: 本稿では,Kedaw'ida,Kalenjin,Dholuoの3言語を対象とした言語コーパスの開発事例について述べる。
本プロジェクトは,これらの言語の母語話者からテキストや音声データを収集するために,選択的クラウドソーシング手法を用いた。
我々はこれらのリソースをオープン検索プラットフォーム、すなわち並列テキストコーパスのZenodoと音声データセットのMozilla Common Voiceを通じて自由にアクセスできるようにした。
- 参考スコア(独自算出の注目度): 0.815557531820863
- License:
- Abstract: Natural Language Processing is a crucial frontier in artificial intelligence, with broad applications in many areas, including public health, agriculture, education, and commerce. However, due to the lack of substantial linguistic resources, many African languages remain underrepresented in this digital transformation. This paper presents a case study on the development of linguistic corpora for three under-resourced Kenyan languages, Kidaw'ida, Kalenjin, and Dholuo, with the aim of advancing natural language processing and linguistic research in African communities. Our project, which lasted one year, employed a selective crowd-sourcing methodology to collect text and speech data from native speakers of these languages. Data collection involved (1) recording conversations and translation of the resulting text into Kiswahili, thereby creating parallel corpora, and (2) reading and recording written texts to generate speech corpora. We made these resources freely accessible via open-research platforms, namely Zenodo for the parallel text corpora and Mozilla Common Voice for the speech datasets, thus facilitating ongoing contributions and access for developers to train models and develop Natural Language Processing applications. The project demonstrates how grassroots efforts in corpus building can support the inclusion of African languages in artificial intelligence innovations. In addition to filling resource gaps, these corpora are vital in promoting linguistic diversity and empowering local communities by enabling Natural Language Processing applications tailored to their needs. As African countries like Kenya increasingly embrace digital transformation, developing indigenous language resources becomes essential for inclusive growth. We encourage continued collaboration from native speakers and developers to expand and utilize these corpora.
- Abstract(参考訳): 自然言語処理は人工知能において重要なフロンティアであり、公衆衛生、農業、教育、商業など多くの分野で広く応用されている。
しかし、かなりの言語資源が不足しているため、多くのアフリカの言語はこのデジタル・トランスフォーメーションにおいて過小評価されている。
本稿では,アフリカ人コミュニティにおける自然言語処理と言語研究の進展をめざして,Kidaw'ida,Kalenjin,Dholuoの3言語を対象とした言語コーパスの開発事例について述べる。
1年間にわたるこのプロジェクトは、これらの言語の母語話者からテキストや音声データを収集するために、選択的なクラウドソーシング手法を採用しました。
データ収集は,(1)会話を録音し,得られたテキストをKiswahiliに翻訳することにより,パラレルコーパスを生成し,(2)テキストを読み書きして音声コーパスを生成する。
これらのリソースは、オープンソースのプラットフォーム、すなわち、パラレルテキストコーパスのためのZenodoと、スピーチデータセットのためのMozilla Common Voiceを通じて、自由にアクセスできるようにしました。
このプロジェクトでは、コーパス構築における草の根の取り組みが、人工知能のイノベーションにアフリカ語を取り入れることを支援する方法について説明している。
資源のギャップを埋めるだけでなく、これらのコーパスは言語多様性の促進と、そのニーズに合わせた自然言語処理アプリケーションの実現により、地域社会の活性化に不可欠である。
ケニアのようなアフリカ諸国はデジタルトランスフォーメーションをますます受け入れているため、先住民族の言語資源の開発は包括的成長に不可欠である。
私たちはネイティブスピーカーや開発者との継続的なコラボレーションを奨励し、これらのコーパスを拡張して活用します。
関連論文リスト
- LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences [31.62071644137294]
我々は、世界の言語の多様性の低下と、AIとNLPに固有の倫理的課題をもたらすインディジェネラル言語について論じる。
Indigenous Language のための高品質な機械学習トランスレータの開発に励む成果を報告する。
私たちは2023年と2024年にブラジルの先住民コミュニティで実施したプロジェクトで構築したプロトタイプを紹介します。
論文 参考訳(メタデータ) (2024-07-17T14:46:37Z) - Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Google Crowdsourced Speech Corpora and Related Open-Source Resources for
Low-Resource Languages and Dialects: An Overview [43.92114369646489]
テキスト音声と自動音声認識アプリケーションを構築するために38のデータセットをリリースした。
本稿では,このようなコーパスの開発に使用される方法論について述べるとともに,表現不足の言語コミュニティに恩恵をもたらす可能性のある知見をいくつか提示する。
論文 参考訳(メタデータ) (2020-10-14T02:24:04Z) - Towards Neural Machine Translation for Edoid Languages [2.144787054581292]
多くのナイジェリアの言語は、現代の社会における彼らの以前の名声と目的を、英語とナイジェリアのピジンに放棄した。
本研究は,南ナイジェリアの江戸語族におけるニューラルマシン翻訳の実現可能性について考察する。
論文 参考訳(メタデータ) (2020-03-24T07:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。