論文の概要: Kencorpus: A Kenyan Language Corpus of Swahili, Dholuo and Luhya for
Natural Language Processing Tasks
- arxiv url: http://arxiv.org/abs/2208.12081v1
- Date: Thu, 25 Aug 2022 13:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:25:29.353451
- Title: Kencorpus: A Kenyan Language Corpus of Swahili, Dholuo and Luhya for
Natural Language Processing Tasks
- Title(参考訳): Kencorpus: 自然言語処理タスクのためのKenyan Language Corpus of Swahili, Dholuo, Luhya
- Authors: Barack Wanjawa, Lilian Wanzare, Florence Indede, Owen McOnyango,
Edward Ombui, Lawrence Muchemi
- Abstract要約: Kencorpusはケニア語コーパスで、テキストと音声データの収集と保存のギャップを埋めようとしている。
ケンコーパス(Kencorpus)は、ケニアで主に話されている3つの言語(スワヒリ語、ドゥルオ語、ルヒャ語)のコーパス(テキストとスピーチ)である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indigenous African languages are categorized as under-served in Artificial
Intelligence and suffer poor digital inclusivity and information access. The
challenge has been how to use machine learning and deep learning models without
the requisite data. Kencorpus is a Kenyan Language corpus that intends to
bridge the gap on how to collect, and store text and speech data that is good
enough to enable data-driven solutions in applications such as machine
translation, question answering and transcription in multilingual communities.
Kencorpus is a corpus (text and speech) for three languages predominantly
spoken in Kenya: Swahili, Dholuo and Luhya (dialects Lumarachi, Lulogooli and
Lubukusu). This corpus intends to fill the gap of developing a dataset that can
be used for Natural Language Processing and Machine Learning tasks for
low-resource languages. Each of these languages contributed text and speech
data for the language corpus. Data collection was done by researchers from
communities, schools and collaborating partners (media, publishers). Kencorpus
has a collection of 5,594 items, being 4,442 texts (5.6million words) and 1,152
speech files (177hrs). Based on this data, other datasets were also developed
e.g POS tagging sets for Dholuo and Luhya (50,000 and 93,000 words tagged
respectively), Question-Answer pairs from Swahili texts (7,537 QA pairs) and
Translation of texts into Swahili (12,400 sentences). The datasets are useful
for machine learning tasks such as text processing, annotation and translation.
The project also undertook proof of concept systems in speech to text and
machine learning for QA task, with initial results confirming the usability of
the Kencorpus to the machine learning community. Kencorpus is the first such
corpus of its kind for these low resource languages and forms a basis of
learning and sharing experiences for similar works.
- Abstract(参考訳): アフリカ原住民の言語は、人工知能では不足しており、デジタルの傾向や情報アクセスに乏しい。
課題は、必要なデータなしで機械学習とディープラーニングモデルを使用する方法だ。
kencorpusはケニア語のコーパスで、機械翻訳、質問応答、多言語コミュニティでの書き起こしといったアプリケーションにおけるデータ駆動ソリューションを可能にするのに十分なテキストや音声データの収集と保存のギャップを埋めることを目的としている。
ケンコーパス(Kencorpus)は、ケニアのスワヒリ語、ドゥルーオ語、ルヒャ語(Lumarachi, Lulogooli, Lubukusu)で主に話される3つの言語のためのコーパスである。
このコーパスは、低リソース言語のための自然言語処理と機械学習タスクに使用できるデータセットの開発ギャップを埋めようとしている。
これらの言語はそれぞれ、言語コーパスにテキストと音声データを提供した。
データ収集は、コミュニティ、学校、協力パートナー(メディア、出版社)の研究者によって行われた。
ケンコーパスには5,594点のテキスト(5.6万語)と1,152の音声ファイル(177時間)がある。
このデータに基づいて、DholuoとLuhyaのPOSタグセット(それぞれ5万語と9万3000語)、Swahiliのテキスト(7,537 QAペア)からのQ&A対、Swahiliのテキストの翻訳(12,400文)などのデータセットも開発された。
データセットは、テキスト処理、アノテーション、翻訳などの機械学習タスクに有用である。
このプロジェクトはまた、QAタスクのための音声からテキスト、機械学習の概念システムの実証も行っており、最初の結果は、Kencorpusが機械学習コミュニティに利用可能であることを確認した。
Kencorpusはこのような低リソース言語のための最初のコーパスであり、同様の作品の学習と共有経験の基礎を形成している。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource
Language [0.0]
このデータセットは、Swahili低リソース言語の生のストーリーテキストから注釈付けされている。
QAデータセットは、インターネット検索やダイアログシステムのようなタスクのための自然言語の機械理解にとって重要である。
この研究は、Kencorpusプロジェクトによって収集されたスワヒリのテキストからQAペアを定式化するためにアノテータを雇った。
論文 参考訳(メタデータ) (2022-05-04T23:53:23Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。