論文の概要: MMTAfrica: Multilingual Machine Translation for African Languages
- arxiv url: http://arxiv.org/abs/2204.04306v1
- Date: Fri, 8 Apr 2022 21:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 10:11:53.140994
- Title: MMTAfrica: Multilingual Machine Translation for African Languages
- Title(参考訳): MMTAfrica:アフリカ言語のための多言語機械翻訳
- Authors: Chris C. Emezue, and Bonaventure F. P. Dossou
- Abstract要約: MMTAfricaは,アフリカ6言語を対象とした多言語多言語翻訳システムである。
アフリカ語に関する多言語翻訳には, BT&REC という新たな逆翻訳と再構成の目的を導入する。
FLORES 101ベンチマークによるMMTAfricaの改良について報告する。
- 参考スコア(独自算出の注目度): 0.010742675209112621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we focus on the task of multilingual machine translation for
African languages and describe our contribution in the 2021 WMT Shared Task:
Large-Scale Multilingual Machine Translation. We introduce MMTAfrica, the first
many-to-many multilingual translation system for six African languages: Fon
(fon), Igbo (ibo), Kinyarwanda (kin), Swahili/Kiswahili (swa), Xhosa (xho), and
Yoruba (yor) and two non-African languages: English (eng) and French (fra). For
multilingual translation concerning African languages, we introduce a novel
backtranslation and reconstruction objective, BT\&REC, inspired by the random
online back translation and T5 modeling framework respectively, to effectively
leverage monolingual data. Additionally, we report improvements from MMTAfrica
over the FLORES 101 benchmarks (spBLEU gains ranging from $+0.58$ in Swahili to
French to $+19.46$ in French to Xhosa). We release our dataset and code source
at https://github.com/edaiofficial/mmtafrica.
- Abstract(参考訳): 本稿では,アフリカの言語における多言語機械翻訳の課題に着目し,2021年のWMT共有タスク:大規模多言語機械翻訳への貢献について述べる。
MMTAfricaは,アフリカ系6言語(Fon (fon), Igbo (ibo), Kinyarwanda (kin), Swahili/Kiswahili (swa), Xhosa (xho), Yoruba (yor),非アフリカ系2言語( English (eng) と French (fra)))に対する最初の多言語多言語翻訳システムである。
アフリカの言語に関する多言語翻訳では,ランダムなオンライン翻訳とT5モデリングフレームワークに触発された新しい逆翻訳・再構成目的BT\&RECを導入し,モノリンガルデータを効果的に活用する。
さらに、FLORES 101ベンチマークよりもMMTAfricaの改善を報告します(spBLEUはスワヒリで+0.58ドルからフランス語で+19.46ドルからフランス語で+19.46ドルからXhosa)。
私たちはデータセットとソースコードをhttps://github.com/edaiofficial/mmtafricaでリリースしています。
関連論文リスト
- Toucan: Many-to-Many Translation for 150 African Language Pairs [18.994098153839996]
我々は2つの言語モデル、Cheetah-1.2BとCheetah-3.7Bを紹介した。
次に、前述のモデルを微調整して、アフリカ語ペア156をサポートするように設計された、アフロセントリックな機械翻訳モデルであるToucanを作成します。
トウカンは他のモデルよりも大幅に優れており、アフリカの言語におけるMTでの顕著なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-05T18:12:19Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Enhancing Translation for Indigenous Languages: Experiments with
Multilingual Models [57.10972566048735]
本稿では,3つの方法のシステム記述について述べる。
M2M-100とmBART50という2つの多言語モデルと1つのバイリンガル(1対1)-ヘルシンキNLPスペイン語翻訳モデルを使いました。
アメリカから11の言語を実験し、使用したセットアップと、達成した成果を報告しました。
論文 参考訳(メタデータ) (2023-05-27T08:10:40Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - University of Cape Town's WMT22 System: Multilingual Machine Translation
for Southern African Languages [6.1394388820078625]
我々のシステムは、英語と8つの南アフリカ語/南アフリカ語の間で翻訳される単一の多言語翻訳モデルである。
低リソース機械翻訳(MT)に適した手法として,重なり合うBPE,バックトランスレーション,合成トレーニングデータ生成,トレーニング中の翻訳方向の追加などを用いた。
以上の結果から,特にバイリンガル学習データが少ない方向,あるいは全くない方向において,これらの手法の価値が示唆された。
論文 参考訳(メタデータ) (2022-10-21T06:31:24Z) - Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文 参考訳(メタデータ) (2022-10-18T07:22:29Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - FFR v1.1: Fon-French Neural Machine Translation [0.012691047660244334]
FFRプロジェクトは、非常に低リソースでトーナルな言語であるFonからフランス語への堅牢な翻訳モデルを作成するための大きなステップである。
本稿では、Fon-to- French翻訳のコーパスであるFFRデータセットを導入し、ダイアクリティカル符号化プロセスを説明し、FFR v1.1モデルを紹介した。
論文 参考訳(メタデータ) (2020-06-14T04:27:12Z) - FFR V1.0: Fon-French Neural Machine Translation [0.012691047660244334]
アフリカは世界で最も言語多様性が高い。
アフリカの言語における低リソース、ダイアクリティカル、トーナルの複雑さは、今日のアフリカNLPが直面している主要な問題である。
本稿では、Fon-to- French翻訳のための大規模コーパスの作成と、このデータセットに基づいてトレーニングされたFFR v1.0モデルについて述べる。
論文 参考訳(メタデータ) (2020-03-26T19:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。