論文の概要: GhanaNLP Parallel Corpora: Comprehensive Multilingual Resources for Low-Resource Ghanaian Languages
- arxiv url: http://arxiv.org/abs/2603.13793v1
- Date: Sat, 14 Mar 2026 06:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.412022
- Title: GhanaNLP Parallel Corpora: Comprehensive Multilingual Resources for Low-Resource Ghanaian Languages
- Title(参考訳): GhanaNLP並列コーパス:低リソースガーナ語のための総合多言語資源
- Authors: Lawrence Adu Gyamfi, Paul Azunre, Stephen Edward Moore, Joel Budu, Akwasi Asare, Mich-Seth Owusu, Jonathan Ofori Asiamah,
- Abstract要約: ガーナのイニシアチブは、Twi、Fante、Ewe、Ga、Kusaal言語向けに41,513のパラレル文ペアを開発し、キュレートした。
これらのコーパスは、機械翻訳、音声技術、言語保存を含む研究、教育、商業的応用を支援するように設計されている。
- 参考スコア(独自算出の注目度): 0.11275693054719732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low resource languages present unique challenges for natural language processing due to the limited availability of digitized and well structured linguistic data. To address this gap, the GhanaNLP initiative has developed and curated 41,513 parallel sentence pairs for the Twi, Fante, Ewe, Ga, and Kusaal languages, which are widely spoken across Ghana yet remain underrepresented in digital spaces. Each dataset consists of carefully aligned sentence pairs between a local language and English. The data were collected, translated, and annotated by human professionals and enriched with standard structural metadata to ensure consistency and usability. These corpora are designed to support research, educational, and commercial applications, including machine translation, speech technologies, and language preservation. This paper documents the dataset creation methodology, structure, intended use cases, and evaluation, as well as their deployment in real world applications such as the Khaya AI translation engine. Overall, this work contributes to broader efforts to democratize AI by enabling inclusive and accessible language technologies for African languages.
- Abstract(参考訳): 低リソース言語は、デジタル化および構造化された言語データの限られた可用性のため、自然言語処理に固有の課題を示す。
このギャップに対処するため、ガーナにおけるGhanaNLPイニシアチブは、Twi、Fante、Ewe、Ga、Kusaal言語のための41,513のパラレル文対を開発し、キュレートした。
各データセットは、局所言語と英語の間の注意深く整列された文ペアで構成されている。
データは、人間のプロフェッショナルによって収集、翻訳、注釈付けされ、一貫性とユーザビリティを確保するために、標準的な構造メタデータが強化された。
これらのコーパスは、機械翻訳、音声技術、言語保存を含む研究、教育、商業的応用を支援するように設計されている。
本稿では,データセット作成手法,構造,意図されたユースケース,評価,およびKhaya AI翻訳エンジンなどの実環境アプリケーションへの展開について述べる。
全体として、この研究は、アフリカ言語の包括的でアクセスしやすい言語技術を可能にすることによって、AIを民主化するための幅広い努力に貢献している。
関連論文リスト
- Opportunities and Challenges of Natural Language Processing for Low-Resource Senegalese Languages in Social Science Research [0.6016863427924156]
本稿では,セネガル憲法で公式に認められた6つの国語(Wolof, Pulaar, Sereer, Joola, Mandingue, Soninke)の進歩と課題について概観する。
言語的・社会技術的・インフラ的要素を合成し、それらのデジタル準備性を形作り、データ、ツール、ベンチマークのギャップを識別する。
この論文は、セネガル語のための持続可能なコミュニティ中心のNLPエコシステムに向けたロードマップを概説することで締めくくっている。
論文 参考訳(メタデータ) (2025-12-24T20:20:31Z) - Low-Resource, High-Impact: Building Corpora for Inclusive Language Technologies [11.52881045684005]
このチュートリアルは、多言語および低リソース言語を扱うNLP実践者、研究者、開発者向けに設計されている。
参加者は、表現不足の言語のためのエンドツーエンドのNLPパイプラインを構築するための実用的なツールキットを使い果たします。
論文 参考訳(メタデータ) (2025-12-16T16:44:17Z) - Building low-resource African language corpora: A case study of Kidawida, Kalenjin and Dholuo [0.815557531820863]
本稿では,Kedaw'ida,Kalenjin,Dholuoの3言語を対象とした言語コーパスの開発事例について述べる。
本プロジェクトは,これらの言語の母語話者からテキストや音声データを収集するために,選択的クラウドソーシング手法を用いた。
我々はこれらのリソースをオープン検索プラットフォーム、すなわち並列テキストコーパスのZenodoと音声データセットのMozilla Common Voiceを通じて自由にアクセスできるようにした。
論文 参考訳(メタデータ) (2025-01-19T10:17:21Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。