論文の概要: AfriScience-MT: Towards Decolonizing Science in Africa through Text Translation
- arxiv url: http://arxiv.org/abs/2605.29741v1
- Date: Thu, 28 May 2026 10:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.577007
- Title: AfriScience-MT: Towards Decolonizing Science in Africa through Text Translation
- Title(参考訳): AfriScience-MT: テキスト翻訳によるアフリカにおける科学の植民地化を目指して
- Authors: Idris Abdulmumin, Tajuddeen Gwadabe, Shamsuddeen Hassan Muhammad, David Ifeoluwa Adelani, Nomonde Khalo, Ibrahim Said Ahmad, Abiodun Modupe, Anina Mumm, Sibusiso Biyela, Michelle Rabie, Johanna Havemann, Marek Rei, Jade Abbott, Vukosi Marivate,
- Abstract要約: AfriScience-MTは、6つのアフリカの言語(アムハラ語、ハウサ語、ルガンダ語、北部ソソ語、ヨルブ語、イシズルー語)をカバーする平行コーパスである。
専門の翻訳者は、科学論文の平易な要約を各対象言語に翻訳し、全く存在しない新しい用語を作り出した。
ゼロショット、少数ショット、微調整設定で機械翻訳システムと大規模言語モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 13.80926536385416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominance of colonial languages in African education and scientific communication limits how hundreds of millions of speakers of African languages access and produce scientific knowledge. A core obstacle is the lack of established scientific terminology in these languages. We introduce AfriScience-MT, a parallel corpus covering six African languages (Amharic, Hausa, Luganda, Northern Sotho, Yorùbá, and isiZulu) across 11 scientific domains. Professional translators, working with expert science communicators, translated plain-language summaries of scientific papers into each target language and created new terms where none existed. We benchmark machine translation systems and large language models in zero-shot, few-shot, and fine-tuned settings. Our results show that closed-source models outperform all open-source models at both the sentence and document levels: GPT-5.4 and Gemini-3.1-Flash-Lite lead with average sentence-level COMET scores of 68.3 and 68.0, respectively, and tie at an average document-level COMET of 48.3. Among open systems, fine-tuned NLLB-1.3B reaches 67.3 at the sentence level, and TranslateGemma-12B reaches 44.0 at the document level with 1-shot in-context learning. We release AfriScience-MT to support benchmarking and document-level scientific MT for African languages.
- Abstract(参考訳): アフリカ教育と科学コミュニケーションにおける植民地語の支配は、数億人のアフリカ語話者が科学知識にアクセスし、生産することを制限している。
中心となる障害は、これらの言語に確立された科学的用語の欠如である。
AfriScience-MTはアフリカの6つの言語(アムハラ語、ハウサ語、ルガンダ語、北部ソソ語、ヨルバ語、イシズルー語)を11の科学的領域でカバーする並列コーパスである。
専門的な翻訳者は専門家の科学コミュニケーターと協力し、科学論文の平易な要約を各対象言語に翻訳し、全く存在しない新しい用語を作った。
ゼロショット、少数ショット、微調整設定で機械翻訳システムと大規模言語モデルをベンチマークする。
GPT-5.4 と Gemini-3.1-Flash-Lite は平均文レベル COMET スコア 68.3 と 68.0 であり、平均文書レベル COMET は 48.3 である。
オープンシステムでは、微調整されたNLLB-1.3Bは文レベルで67.3に達し、TranslateGemma-12Bは1ショットのインテキスト学習で文書レベルで44.0に達する。
我々はAfriScience-MTをリリースし、アフリカの言語に対するベンチマークと文書レベルの科学的なMTをサポートする。
関連論文リスト
- AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models [12.74993793082974]
Supervised Fine-Tuning (SFT) と Direct Preference Optimization (DPO) のための78.9Kマルチターントレーニング例のデータセットを構築した。
10のアフリカ語でAFRILangeduと呼ばれる言語学習モデルを訓練する。
以上の結果から, AFRILangedu でトレーニングしたモデルは, ベースモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2026-04-22T18:38:04Z) - Towards High-Quality Machine Translation for Kokborok: A Low-Resource Tibeto-Burman Language of Northeast India [0.0]
コクボロクMT(KokborokMT)は、インド・トリプラ州で主に話されているチベット・ビルマ語(英語版)の言語であるコクボロク(ISO 639-3)の高品質なニューラルマシン翻訳(NMT)システムである。
我々は,NLLB-200蒸留600Mモデルを36,052文対からなる多ソース並列コーパス上で微調整する。
我々の最良のシステムは、事前に公表された結果よりも大幅に改善されたテストセット上でのBLEUスコア17.30と38.56を達成する。
論文 参考訳(メタデータ) (2026-03-28T18:20:13Z) - ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation [1.730057408524355]
ASCATは、平均141.7語(英語)と111.78語(アラビア語)の科学的な要約を対象とする。
各抽象化は、3つの補完的生成AI(Gemini)、トランスフォーマーベースモデル(Hugging Face texttquickmt-en-ar)、商用MT API(Google Translate、DeepL)を使用して翻訳された。
その結果得られたコーパスには67,293の英語のトークンと60,026のアラビア語のトークンが含まれており、アラビア語の語彙は17,604で、言語の形態的豊かさを反映している。
論文 参考訳(メタデータ) (2026-03-10T18:41:52Z) - The African Languages Lab: A Collaborative Approach to Advancing Low-Resource African NLP [4.188487384419692]
アフリカの言語は世界の3分の1近くを占めるが、現代のNLP技術に批判的に劣っている。
我々は、体系的なデータ収集、モデル開発、キャパシティビルディングを通じて、この技術的ギャップに対処する包括的な研究イニシアチブであるアフリカ言語研究所を提示する。
論文 参考訳(メタデータ) (2025-10-07T07:42:52Z) - A MISMATCHED Benchmark for Scientific Natural Language Inference [53.17435107472026]
我々はMISMATCHEDと呼ばれる科学NLIの新たな評価ベンチマークを導入する。
新しいベンチマークでは、PSYCHOLOGY、ENGINEERING、PUBLIC HEALTHの3つの非CSドメインをカバーする。
MISMATCHEDベンチマークを導入することに加え、モデルトレーニングにおいてそれらの間の暗黙的な科学的NLI関係を持つ文対を組み込むことで、科学的NLIの性能が向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T03:40:57Z) - Bridging the Gap: Enhancing LLM Performance for Low-Resource African Languages with New Benchmarks, Fine-Tuning, and Cultural Adjustments [0.9214083577876088]
本稿では,8つの低リソースアフリカ言語において,約100万の人文翻訳語を新たにベンチマークデータとして生成する。
我々のベンチマークはウィノグランデの翻訳とMMLUの3つのセクション(大学医学、臨床知識、ウイルス学)である。
翻訳されたベンチマークを用いて、英語とアフリカ語におけるSOTA(State-of-the-art LLM)のパフォーマンスギャップについて報告する。
論文 参考訳(メタデータ) (2024-12-16T23:50:21Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。
これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。
SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。