論文の概要: Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages
- arxiv url: http://arxiv.org/abs/2210.09644v1
- Date: Tue, 18 Oct 2022 07:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:40:12.764206
- Title: Tencent's Multilingual Machine Translation System for WMT22 Large-Scale
African Languages
- Title(参考訳): TencentによるWMT22大規模アフリカ言語用多言語機械翻訳システム
- Authors: Wenxiang Jiao, Zhaopeng Tu, Jiarui Li, Wenxuan Wang, Jen-tse Huang,
Shuming Shi
- Abstract要約: 本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
我々は,多言語ニューラルマシン翻訳(MNMT)モデルを開発するために,データ拡張,分散ロバストな最適化,言語ファミリグループ化を採用する。
- 参考スコア(独自算出の注目度): 47.06332023467713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes Tencent's multilingual machine translation systems for
the WMT22 shared task on Large-Scale Machine Translation Evaluation for African
Languages. We participated in the $\mathbf{constrained}$ translation track in
which only the data and pretrained models provided by the organizer are
allowed. The task is challenging due to three problems, including the absence
of training data for some to-be-evaluated language pairs, the uneven
optimization of language pairs caused by data imbalance, and the curse of
multilinguality. To address these problems, we adopt data augmentation,
distributionally robust optimization, and language family grouping,
respectively, to develop our multilingual neural machine translation (MNMT)
models. Our submissions won the $\mathbf{1st\ place}$ on the blind test sets in
terms of the automatic evaluation metrics. Codes, models, and detailed
competition results are available at
https://github.com/wxjiao/WMT2022-Large-Scale-African.
- Abstract(参考訳): 本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。
主催者が提供するデータと事前学習されたモデルのみを許可する$\mathbf{constrained}$ translationトラックに参加しました。
この課題は、評価すべき言語ペアのトレーニングデータの欠如、データの不均衡による言語ペアの不均一な最適化、多言語性の呪いといった3つの問題によって困難である。
これらの問題に対処するために,我々は多言語ニューラルマシン翻訳(mnmt)モデルを開発するために,データ拡張,分散的ロバストな最適化,言語ファミリーグルーピングを採用する。
我々の応募は自動評価指標の点からブラインドテストセットで$\mathbf{1st\ place}$を受賞した。
コード、モデル、詳細な競合結果がhttps://github.com/wxjiao/wmt2022-large-scale-africanで確認できる。
関連論文リスト
- Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。