論文の概要: A Large-Scale Study of Machine Translation in the Turkic Languages
- arxiv url: http://arxiv.org/abs/2109.04593v1
- Date: Thu, 9 Sep 2021 23:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 01:34:48.533970
- Title: A Large-Scale Study of Machine Translation in the Turkic Languages
- Title(参考訳): トルコ語における機械翻訳の大規模研究
- Authors: Jamshidbek Mirzakhalov, Anoop Babu, Duygu Ataman, Sherzod Kariev,
Francis Tyers, Otabek Abduraufov, Mammad Hajili, Sardana Ivanova, Abror
Khaytbaev, Antonio Laverghetta Jr., Behzodbek Moydinboyev, Esra Onal,
Shaxnoza Pulatova, Ahsan Wahab, Orhan Firat, Sriram Chellappan
- Abstract要約: ニューラルマシン翻訳(NMT)の最近の進歩は、機械翻訳システムの品質を、競争力のあるシステムを構築するために広く採用されつつあるところまで押し上げている。
しかし、まだNMTのメリットを享受できていない言語はたくさんあります。
本稿では,テュルク語族におけるMTの実践的応用に関する,最初の大規模ケーススタディを提供する。
- 参考スコア(独自算出の注目度): 7.3458368273762815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in neural machine translation (NMT) have pushed the quality
of machine translation systems to the point where they are becoming widely
adopted to build competitive systems. However, there is still a large number of
languages that are yet to reap the benefits of NMT. In this paper, we provide
the first large-scale case study of the practical application of MT in the
Turkic language family in order to realize the gains of NMT for Turkic
languages under high-resource to extremely low-resource scenarios. In addition
to presenting an extensive analysis that identifies the bottlenecks towards
building competitive systems to ameliorate data scarcity, our study has several
key contributions, including, i) a large parallel corpus covering 22 Turkic
languages consisting of common public datasets in combination with new datasets
of approximately 2 million parallel sentences, ii) bilingual baselines for 26
language pairs, iii) novel high-quality test sets in three different
translation domains and iv) human evaluation scores. All models, scripts, and
data will be released to the public.
- Abstract(参考訳): 近年のニューラルマシン翻訳(nmt)の進歩により、機械翻訳システムの品質が向上し、競争力のあるシステムを構築するために広く採用されている。
しかし、まだNMTのメリットを享受できていない言語はたくさんあります。
本稿では,テュルク語族におけるMTの実践的応用に関する大規模なケーススタディとして,高リソース・低リソースシナリオ下でのNMTの獲得を実現する。
データ不足を緩和する競争システム構築のボトルネックを特定する広範な分析に加えて、本研究では、いくつかの重要な貢献をしている。
一 約二百万の並行文の新しいデータセットと組み合わせて、共通の公開データセットからなる22のトルコ語を包含する大きな平行コーパス
二 26の言語対のバイリンガルベースライン
三) 3つの異なる翻訳領域における新規な高品質な試験セット
iv) 人間の評価スコア。
すべてのモデル、スクリプト、データは一般に公開される。
関連論文リスト
- EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。
また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。
トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文 参考訳(メタデータ) (2024-03-28T12:26:45Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Evaluating Multiway Multilingual NMT in the Turkic Languages [11.605271847666005]
本研究では、テュルク語族に属する22言語における機械翻訳システムの訓練と評価のための最先端手法の評価を行う。
我々は,26のバイリンガルベースラインと,コーパスを用いたマルチウェイニューラルMT(MNMT)モデルを訓練し,自動測定と人的評価を用いた広範囲な解析を行った。
MNMTモデルは、ドメイン外テストセットのほとんど全てのバイリンガルベースラインより優れており、単一のペアの下流タスクでモデルを微調整することで、大きなパフォーマンス向上がもたらされる。
論文 参考訳(メタデータ) (2021-09-13T19:01:07Z) - Majority Voting with Bidirectional Pre-translation For Bitext Retrieval [2.580271290008534]
一般的なアプローチは、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングすることであった。
本稿では,現状の手法による問題を概説し,それらの問題に対する計算経済的解決策を提案し,新しい手法による成功を実証する。
実験に使用されるコードとデータは公開されています。
論文 参考訳(メタデータ) (2021-03-10T22:24:01Z) - Improving Multilingual Neural Machine Translation For Low-Resource
Languages: French-, English- Vietnamese [4.103253352106816]
本稿では,多言語mtシステムにおける希少な単語問題に対処するための2つの単純な戦略を提案する。
両言語対のバイリンガルベースラインシステムに対して,+1.62と+2.54のBLEU点が大幅に改善された。
論文 参考訳(メタデータ) (2020-12-16T04:43:43Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。