論文の概要: University of Cape Town's WMT22 System: Multilingual Machine Translation
for Southern African Languages
- arxiv url: http://arxiv.org/abs/2210.11757v1
- Date: Fri, 21 Oct 2022 06:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:34:03.256945
- Title: University of Cape Town's WMT22 System: Multilingual Machine Translation
for Southern African Languages
- Title(参考訳): ケープタウン大学のWMT22システム:南アフリカ語への多言語機械翻訳
- Authors: Khalid N. Elmadani, Francois Meyer, Jan Buys
- Abstract要約: 我々のシステムは、英語と8つの南アフリカ語/南アフリカ語の間で翻訳される単一の多言語翻訳モデルである。
低リソース機械翻訳(MT)に適した手法として,重なり合うBPE,バックトランスレーション,合成トレーニングデータ生成,トレーニング中の翻訳方向の追加などを用いた。
以上の結果から,特にバイリンガル学習データが少ない方向,あるいは全くない方向において,これらの手法の価値が示唆された。
- 参考スコア(独自算出の注目度): 6.1394388820078625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper describes the University of Cape Town's submission to the
constrained track of the WMT22 Shared Task: Large-Scale Machine Translation
Evaluation for African Languages. Our system is a single multilingual
translation model that translates between English and 8 South / South East
African Languages, as well as between specific pairs of the African languages.
We used several techniques suited for low-resource machine translation (MT),
including overlap BPE, back-translation, synthetic training data generation,
and adding more translation directions during training. Our results show the
value of these techniques, especially for directions where very little or no
bilingual training data is available.
- Abstract(参考訳): この論文は、ケープタウン大学のwmt22共有タスクの制約付きトラックへの提案について記述している。
我々のシステムは、英語と8つの南/南アフリカの言語、およびアフリカの言語の特定のペア間で翻訳される単一の多言語翻訳モデルである。
低リソース機械翻訳(MT)に適した手法として,重なり合うBPE,バックトランスレーション,合成トレーニングデータ生成,トレーニング中の翻訳方向の追加などを用いた。
以上の結果から,特にバイリンガル学習データがほとんど,あるいは全くない方向において,これらの手法の価値が示された。
関連論文リスト
- Toucan: Many-to-Many Translation for 150 African Language Pairs [18.994098153839996]
我々は2つの言語モデル、Cheetah-1.2BとCheetah-3.7Bを紹介した。
次に、前述のモデルを微調整して、アフリカ語ペア156をサポートするように設計された、アフロセントリックな機械翻訳モデルであるToucanを作成します。
トウカンは他のモデルよりも大幅に優れており、アフリカの言語におけるMTでの顕著なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-05T18:12:19Z) - A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages [47.06332023467713]
本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
論文 参考訳(メタデータ) (2022-10-18T07:22:29Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - MMTAfrica: Multilingual Machine Translation for African Languages [0.010742675209112621]
MMTAfricaは,アフリカ6言語を対象とした多言語多言語翻訳システムである。
アフリカ語に関する多言語翻訳には, BT&REC という新たな逆翻訳と再構成の目的を導入する。
FLORES 101ベンチマークによるMMTAfricaの改良について報告する。
論文 参考訳(メタデータ) (2022-04-08T21:42:44Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。