論文の概要: Toucan: Many-to-Many Translation for 150 African Language Pairs
- arxiv url: http://arxiv.org/abs/2407.04796v2
- Date: Fri, 12 Jul 2024 17:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:08:23.987677
- Title: Toucan: Many-to-Many Translation for 150 African Language Pairs
- Title(参考訳): Toucan: 150のアフリカ語ペアの多言語翻訳
- Authors: AbdelRahim Elmadany, Ife Adebara, Muhammad Abdul-Mageed,
- Abstract要約: 我々は2つの言語モデル、Cheetah-1.2BとCheetah-3.7Bを紹介した。
次に、前述のモデルを微調整して、アフリカ語ペア156をサポートするように設計された、アフロセントリックな機械翻訳モデルであるToucanを作成します。
トウカンは他のモデルよりも大幅に優れており、アフリカの言語におけるMTでの顕著なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 18.994098153839996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address a notable gap in Natural Language Processing (NLP) by introducing a collection of resources designed to improve Machine Translation (MT) for low-resource languages, with a specific focus on African languages. First, we introduce two language models (LMs), Cheetah-1.2B and Cheetah-3.7B, with 1.2 billion and 3.7 billion parameters respectively. Next, we finetune the aforementioned models to create toucan, an Afrocentric machine translation model designed to support 156 African language pairs. To evaluate Toucan, we carefully develop an extensive machine translation benchmark, dubbed AfroLingu-MT, tailored for evaluating machine translation. Toucan significantly outperforms other models, showcasing its remarkable performance on MT for African languages. Finally, we train a new model, spBLEU-1K, to enhance translation evaluation metrics, covering 1K languages, including 614 African languages. This work aims to advance the field of NLP, fostering cross-cultural understanding and knowledge exchange, particularly in regions with limited language resources such as Africa. The GitHub repository for the Toucan project is available at https://github.com/UBC-NLP/Toucan.
- Abstract(参考訳): 我々は、低リソース言語のための機械翻訳(MT)を改善するために設計されたリソースのコレクションを導入することで、自然言語処理(NLP)の顕著なギャップに対処する。
まず、12億と370億のパラメータを持つ2つの言語モデル、Cheetah-1.2BとCheetah-3.7Bを紹介する。
次に、前述のモデルを微調整して、アフリカ語ペア156をサポートするように設計された、アフロセントリックな機械翻訳モデルであるToucanを作成します。
Toucanを評価するため、我々はAfroLingu-MTと呼ばれる機械翻訳評価のための広範囲な機械翻訳ベンチマークを慎重に開発した。
トウカンは他のモデルよりも大幅に優れており、アフリカの言語におけるMTでの顕著なパフォーマンスを示している。
最後に、新しいモデルspBLEU-1Kをトレーニングし、614のアフリカ語を含む1K言語をカバーする翻訳評価指標を強化する。
この研究は、特にアフリカなどの限られた言語資源を持つ地域で、異文化間の理解と知識交換を促進することを目的としている。
ToucanプロジェクトのGitHubリポジトリはhttps://github.com/UBC-NLP/Toucanで公開されている。
関連論文リスト
- Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - University of Cape Town's WMT22 System: Multilingual Machine Translation
for Southern African Languages [6.1394388820078625]
我々のシステムは、英語と8つの南アフリカ語/南アフリカ語の間で翻訳される単一の多言語翻訳モデルである。
低リソース機械翻訳(MT)に適した手法として,重なり合うBPE,バックトランスレーション,合成トレーニングデータ生成,トレーニング中の翻訳方向の追加などを用いた。
以上の結果から,特にバイリンガル学習データが少ない方向,あるいは全くない方向において,これらの手法の価値が示唆された。
論文 参考訳(メタデータ) (2022-10-21T06:31:24Z) - Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文 参考訳(メタデータ) (2022-10-18T07:22:29Z) - MMTAfrica: Multilingual Machine Translation for African Languages [0.010742675209112621]
MMTAfricaは,アフリカ6言語を対象とした多言語多言語翻訳システムである。
アフリカ語に関する多言語翻訳には, BT&REC という新たな逆翻訳と再構成の目的を導入する。
FLORES 101ベンチマークによるMMTAfricaの改良について報告する。
論文 参考訳(メタデータ) (2022-04-08T21:42:44Z) - English2Gbe: A multilingual machine translation model for {Fon/Ewe}Gbe [0.0]
本稿では,英語からEwe or Fonへの翻訳が可能な多言語ニューラルマシン翻訳モデルである English2Gbe を紹介する。
英語2Gbeはバイリンガルモデル(Ewe と English Fon )より優れており、Fon の JW300 ベンチマークでは最先端の結果が得られている。
論文 参考訳(メタデータ) (2021-12-13T10:35:09Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。