論文の概要: Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion
- arxiv url: http://arxiv.org/abs/2603.14873v1
- Date: Mon, 16 Mar 2026 06:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.094367
- Title: Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion
- Title(参考訳): 英字コーパスと機械翻訳システムの構築
- Authors: Offiong Bassey Edet, Mbuotidem Sunday Awak, Emmanuel Oyo-Ita, Benjamin Okon Nyong, Ita Etim Bassey,
- Abstract要約: 本研究は、英語・英語翻訳における最先端多言語ニューラルマシン翻訳モデルの有効性を評価する。
我々はこのデータセット上でmT5多言語モデルとNLLB200モデルの両方を微調整した。
本研究は,低リソース言語のための実用的な機械翻訳ツールの開発の可能性を示すものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource languages serve as invaluable repositories of human history, preserving cultural and intellectual diversity. Despite their significance, they remain largely absent from modern natural language processing systems. While progress has been made for widely spoken African languages such as Swahili, Yoruba, and Amharic, smaller indigenous languages like Efik continue to be underrepresented in machine translation research. This study evaluates the effectiveness of state-of-the-art multilingual neural machine translation models for English-Efik translation, leveraging a small-scale, community-curated parallel corpus of 13,865 sentence pairs. We fine-tuned both the mT5 multilingual model and the NLLB200 model on this dataset. NLLB-200 outperformed mT5, achieving BLEU scores of 26.64 for English-Efik and 31.21 for Efik-English, with corresponding chrF scores of 51.04 and 47.92, indicating improved fluency and semantic fidelity. Our findings demonstrate the feasibility of developing practical machine translation tools for low-resource languages and highlight the importance of inclusive data practices and culturally grounded evaluation in advancing equitable NLP.
- Abstract(参考訳): 低リソース言語は人類の歴史の貴重なリポジトリとして機能し、文化的・知的多様性を保っている。
その重要性にもかかわらず、それらは現代の自然言語処理システムからほとんど欠落している。
スワヒリ語(英語版)、ヨルバ語(英語版)、アムハラ語(英語版)などの広く話されているアフリカの言語が進歩してきたが、エフィク語のような小さな先住民言語は機械翻訳研究において不足している。
本研究は,13,865文対の小規模なコミュニティ計算による並列コーパスを利用して,最先端多言語ニューラルマシン翻訳モデルの英語・英語翻訳への適用性を評価する。
我々はこのデータセット上でmT5多言語モデルとNLLB200モデルの両方を微調整した。
NLLB-200はmT5より優れ、BLEUスコアが26.64点、Efik- Englishスコアが31.21点、chrFスコアが51.04点、47.92点と向上した。
本研究は,低リソース言語のための実用的な機械翻訳ツールの実現可能性を示し,包括的データ実践の重要性と,公平なNLPの推進における文化的基盤評価を強調した。
関連論文リスト
- Artificially Fluent: Swahili AI Performance Benchmarks Between English-Trained and Natively-Trained Datasets [0.0]
本研究は、Swahiliデータで完全にトレーニングされ、テストされた2つの単言語BERTモデルと、同等の英語ニュースデータで比較した。
このアプローチは、スワヒリの入力を英語モデルで評価するために翻訳すると、スワヒリで完全にモデルを訓練しテストするよりも、より良い性能が得られるかどうかを評価することによって仮説を検証する。
その結果、高品質な翻訳にもかかわらず、スワヒリ語学習モデルはスワヒリ語から英語への翻訳モデルよりも優れた性能を示し、それぞれ0.36%対1.47%の誤差が得られた。
論文 参考訳(メタデータ) (2025-09-03T03:25:11Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - A Multilingual Sentiment Lexicon for Low-Resource Language Translation using Large Languages Models and Explainable AI [0.0]
南アフリカとDRCは、ズールー語、セペディ語、アフリカーンス語、フランス語、英語、ツィルバ語などの言語と共に複雑な言語景観を呈している。
この研究はフランス語とツィルバ語用に設計された多言語辞書を開発し、英語、アフリカーンス語、セペディ語、ズールー語への翻訳を含むように拡張された。
総合的なテストコーパスは、感情を予測するためにトレーニングされた機械学習モデルを使用して、翻訳と感情分析タスクをサポートするために作成される。
論文 参考訳(メタデータ) (2024-11-06T23:41:18Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Improving Neural Machine Translation of Indigenous Languages with
Multilingual Transfer Learning [7.893831644671974]
本稿では,バイリンガルおよびマルチリンガル事前訓練されたMTモデルを用いて,スペイン語から10の南米先住民言語に翻訳する手法について述べる。
私たちのモデルは、新しいSOTAを考慮に入れている10の言語ペアのうち5つに設定し、これらの5つのペアのうちの1つのパフォーマンスを倍増させました。
論文 参考訳(メタデータ) (2022-05-14T07:30:03Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。