論文の概要: Sheffield's Submission to the AmericasNLP Shared Task on Machine
Translation into Indigenous Languages
- arxiv url: http://arxiv.org/abs/2306.09830v1
- Date: Fri, 16 Jun 2023 13:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 13:52:09.320542
- Title: Sheffield's Submission to the AmericasNLP Shared Task on Machine
Translation into Indigenous Languages
- Title(参考訳): アメリカsnlpへのシェフィールドの提出は、母国語への機械翻訳に関するタスクを共有している
- Authors: Edward Gow-Smith, Danae S\'anchez Villegas
- Abstract要約: シェフィールド大学のアメリカスNLP 2023への提出について述べる。
我々のアプローチは、NLLB-200の様々なバリエーションを拡張し、訓練し、アンサンブルすることから成り立っている。
特にAymara、Guarani、Kechuaでは大幅に改善され、開発セットでは、すべての言語でベースラインを平均11%向上させています。
- 参考スコア(独自算出の注目度): 4.251500966181852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we describe the University of Sheffield's submission to the
AmericasNLP 2023 Shared Task on Machine Translation into Indigenous Languages
which comprises the translation from Spanish to eleven indigenous languages.
Our approach consists of extending, training, and ensembling different
variations of NLLB-200. We use data provided by the organizers and data from
various other sources such as constitutions, handbooks, news articles, and
backtranslations generated from monolingual data. On the dev set, our best
submission outperforms the baseline by 11% average chrF across all languages,
with substantial improvements particularly for Aymara, Guarani and Quechua. On
the test set, we achieve the highest average chrF of all the submissions, we
rank first in four of the eleven languages, and at least one of our submissions
ranks in the top 3 for all languages.
- Abstract(参考訳): 本稿では、シェフィールド大学がアメリカsnlp 2023に提出した、スペイン語から11の母国語への翻訳を含む母国語への機械翻訳に関するタスクについて述べる。
私たちのアプローチは、nllb-200のさまざまなバリエーションを拡張し、トレーニングし、センシングすることです。
主催者が提供するデータと、憲法、ハンドブック、ニュース記事、単言語データから生成されたバックトランスプリケーションなど、他の様々なソースからのデータを利用する。
特にAymara、Guarani、Kechuaでは大幅に改善され、開発セットでは、すべての言語でベースラインを平均11%向上させています。
テストセットでは、全ての応募のうち、最も平均的なchrFを達成し、11言語のうち4言語で1位、そして少なくとも1つの応募が、すべての言語で3位にランクインします。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Enhancing Translation for Indigenous Languages: Experiments with
Multilingual Models [57.10972566048735]
本稿では,3つの方法のシステム記述について述べる。
M2M-100とmBART50という2つの多言語モデルと1つのバイリンガル(1対1)-ヘルシンキNLPスペイン語翻訳モデルを使いました。
アメリカから11の言語を実験し、使用したセットアップと、達成した成果を報告しました。
論文 参考訳(メタデータ) (2023-05-27T08:10:40Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches
for news genre, topic and persuasion technique classification [3.503844033591702]
本稿では,SemEval-2023 Task 3: Finding the category, the framing, and the Persuasion Technique in online news in a multi-lingual setup。
論文 参考訳(メタデータ) (2023-03-16T15:54:23Z) - Enhancing Model Performance in Multilingual Information Retrieval with
Comprehensive Data Engineering Techniques [10.57012904999091]
我々は、MIRACLデータセットを用いて、事前訓練された多言語トランスフォーマーベースモデルを微調整する。
モデルの改善は主に、多様なデータエンジニアリング技術によって達成されます。
我々はSurprise-Languagesトラックで2位、Known-Languagesトラックで0.835位、3位、NDCG@10スコアで16の既知の言語で平均0.716位を確保した。
論文 参考訳(メタデータ) (2023-02-14T12:37:32Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Facebook AI WMT21 News Translation Task Submission [23.69817809546458]
ニュース翻訳におけるWMT2021共有課題に対するFacebookの多言語モデル提出について述べる。
チェコ語、ドイツ語、ハウサ語、アイスランド語、日本語、ロシア語、中国語の14の言語指導に参加します。
利用可能なすべてのソースからのデータを利用して、高品質なバイリンガルベースラインとマルチリンガルベースラインを作成します。
論文 参考訳(メタデータ) (2021-08-06T18:26:38Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。