論文の概要: The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP
- arxiv url: http://arxiv.org/abs/2510.05644v1
- Date: Tue, 07 Oct 2025 07:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.144718
- Title: The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP
- Title(参考訳): アフリカ言語研究所:低リソースアフリカNLPの推進に向けた協力的アプローチ
- Authors: Sheriff Issaka, Keyi Wang, Yinka Ajibola, Oluwatumininu Samuel-Ipaye, Zhaoyi Zhang, Nicte Aguillon Jimenez, Evans Kofi Agyei, Abraham Lin, Rohan Ramachandran, Sadick Abdul Mumin, Faith Nchifor, Mohammed Shuraim, Lieqi Liu, Erick Rosas Gonzalez, Sylvester Kpei, Jemimah Osei, Carlene Ajeneza, Persis Boateng, Prisca Adwoa Dufie Yeboah, Saadia Gabriel,
- Abstract要約: アフリカの言語は世界の3分の1近くを占めるが、現代のNLP技術に批判的に劣っている。
我々は、体系的なデータ収集、モデル開発、キャパシティビルディングを通じて、この技術的ギャップに対処する包括的な研究イニシアチブであるアフリカ言語研究所を提示する。
- 参考スコア(独自算出の注目度): 4.188487384419692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite representing nearly one-third of the world's languages, African languages remain critically underserved by modern NLP technologies, with 88\% classified as severely underrepresented or completely ignored in computational linguistics. We present the African Languages Lab (All Lab), a comprehensive research initiative that addresses this technological gap through systematic data collection, model development, and capacity building. Our contributions include: (1) a quality-controlled data collection pipeline, yielding the largest validated African multi-modal speech and text dataset spanning 40 languages with 19 billion tokens of monolingual text and 12,628 hours of aligned speech data; (2) extensive experimental validation demonstrating that our dataset, combined with fine-tuning, achieves substantial improvements over baseline models, averaging +23.69 ChrF++, +0.33 COMET, and +15.34 BLEU points across 31 evaluated languages; and (3) a structured research program that has successfully mentored fifteen early-career researchers, establishing sustainable local capacity. Our comparative evaluation against Google Translate reveals competitive performance in several languages while identifying areas that require continued development.
- Abstract(参考訳): アフリカの言語は世界の3分の1近くを占めるが、現代のNLP技術には批判的に守られておらず、88.%は計算言語学において過小評価されているか、完全に無視されている。
我々は、体系的なデータ収集、モデル開発、キャパシティビルディングを通じて、この技術ギャップに対処する包括的な研究イニシアチブであるアフリカ言語研究所(All Lab)を提示する。
コントリビューションは,(1) 品質管理されたデータ収集パイプライン,(2) 品質管理されたアフリカ最大のマルチモーダル音声およびテキストデータセットを,19億個のモノリンガルテキストトークンと12,628時間のアライメント音声データを含む40言語に分散させ,(2) データセットと微調整を組み合わせることで,ベースラインモデルに対する大幅な改善,(3) 平均+23.69 ChrF++, +0.33 COMET, +15.34 BLEUポイントを31言語で評価し,(3) 早期介護者15人の指導を成功させた構造化研究プログラム,などである。
Google Translateに対する我々の比較評価は、継続的な開発を必要とする領域を特定しながら、いくつかの言語で競合する性能を明らかにします。
関連論文リスト
- Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Cultural Fidelity in Large-Language Models: An Evaluation of Online Language Resources as a Driver of Model Performance in Value Representation [0.0]
GPT-4oが国の社会的価値を反映する能力は、その言語でデジタルリソースが利用可能であることと相関していることを示す。
低リソース言語、特にグローバル・サウスで顕著なWeakerのパフォーマンスは、デジタル・ディビジョンを悪化させる可能性がある。
論文 参考訳(メタデータ) (2024-10-14T13:33:00Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - AI4D -- African Language Program [0.21960481478626018]
この研究は、言語データセットのクラウドソーシング、収集、キュレーションにインセンティブを与えた3部構成のプロジェクトであるAI4D - African Language Programを詳述している。
これまでの主な成果は、1)9以上のオープンソースの作成、さまざまなMLタスクにアノテートされたアフリカの言語データセット、2)これらのデータセットのベースラインモデルの作成である。
論文 参考訳(メタデータ) (2021-04-06T13:51:16Z) - Lanfrica: A Participatory Approach to Documenting Machine Translation
Research on African Languages [0.012691047660244334]
アフリカは1500-2000の文書化された言語と多くの未文書または絶滅した言語がある。
これにより、MTの研究、モデル、データセットの追跡が困難になる。
オンラインプラットフォームは、これらのアフリカの言語の研究、ベンチマーク、データセットへのアクセシビリティを作成するのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T18:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。