論文の概要: AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages
- arxiv url: http://arxiv.org/abs/2109.04715v1
- Date: Fri, 10 Sep 2021 07:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 21:39:33.713405
- Title: AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages
- Title(参考訳): AfroMT:8つのアフリカの言語翻訳のための事前学習戦略と再現可能なベンチマーク
- Authors: Machel Reid, Junjie Hu, Graham Neubig, Yutaka Matsuo
- Abstract要約: AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
- 参考スコア(独自算出の注目度): 94.75849612191546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducible benchmarks are crucial in driving progress of machine
translation research. However, existing machine translation benchmarks have
been mostly limited to high-resource or well-represented languages. Despite an
increasing interest in low-resource machine translation, there are no
standardized reproducible benchmarks for many African languages, many of which
are used by millions of speakers but have less digitized textual data. To
tackle these challenges, we propose AfroMT, a standardized, clean, and
reproducible machine translation benchmark for eight widely spoken African
languages. We also develop a suite of analysis tools for system diagnosis
taking into account the unique properties of these languages. Furthermore, we
explore the newly considered case of low-resource focused pretraining and
develop two novel data augmentation-based strategies, leveraging word-level
alignment information and pseudo-monolingual data for pretraining multilingual
sequence-to-sequence models. We demonstrate significant improvements when
pretraining on 11 languages, with gains of up to 2 BLEU points over strong
baselines. We also show gains of up to 12 BLEU points over cross-lingual
transfer baselines in data-constrained scenarios. All code and pretrained
models will be released as further steps towards larger reproducible benchmarks
for African languages.
- Abstract(参考訳): 再現可能なベンチマークは機械翻訳研究の推進に不可欠である。
しかし、既存の機械翻訳のベンチマークは、主に高解像度言語や表現のよい言語に限られている。
低リソース機械翻訳への関心が高まりつつあるにもかかわらず、多くのアフリカ言語に対して標準化された再現可能なベンチマークは存在しない。
これらの課題に取り組むため,我々は,アフリカで広く話されている8つの言語を対象とした,標準化された,クリーンで再現可能な機械翻訳ベンチマークであるafromtを提案する。
また,これらの言語の特徴を考慮したシステム診断のための分析ツールも開発している。
さらに,低リソースに着目した事前学習を新たに検討し,単語レベルのアライメント情報と擬似モノリンガルデータを活用する2つの新しいデータ拡張戦略を開発した。
11の言語で事前トレーニングすると、強力なベースラインよりも最大2 bleuポイントの値が向上した。
また,データ制約されたシナリオにおいて,言語間転送ベースラインよりも最大12 bleuポイントの獲得率を示す。
すべてのコードと事前訓練されたモデルは、アフリカ言語のより大きな再現可能なベンチマークに向けたさらなるステップとしてリリースされる。
関連論文リスト
- The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language
Selection for Low-Resource Multilingual Sentiment Analysis [11.05909046179595]
本稿では,SemEval-2023タスク12「Twitterデータセットを用いた低リソースアフリカの言語に対する感性分析」のために開発したシステムについて述べる。
対象言語とタスクに事前訓練されたモデルを適用すると、小さいが関連するコーパスを使うことで、F1スコア以上のパフォーマンスが著しく向上する。
共有タスクでは、15トラック中8トラックが勝利し、特に多言語評価において最善を尽くす。
論文 参考訳(メタデータ) (2023-04-28T21:02:58Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models
for African News Translation [25.05948665615943]
我々は16の言語をカバーする新しいアフリカのニュースコーパスを作成し、そのうち8つの言語は既存の評価データセットには含まれない。
提案手法は,少量の高品質翻訳データに基づいて,事前訓練済みの大規模モデルを微調整することである。
論文 参考訳(メタデータ) (2022-05-04T12:11:47Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。