論文の概要: Many-to-English Machine Translation Tools, Data, and Pretrained Models
- arxiv url: http://arxiv.org/abs/2104.00290v1
- Date: Thu, 1 Apr 2021 06:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 03:05:07.012534
- Title: Many-to-English Machine Translation Tools, Data, and Pretrained Models
- Title(参考訳): 多国間機械翻訳ツール、データおよび事前学習モデル
- Authors: Thamme Gowda, Zhao Zhang, Chris A Mattmann, Jonathan May
- Abstract要約: 機械翻訳研究に有用なツールとして,MTData,NLCodec,RTGを提案する。
500のソース言語から英語に翻訳できる多言語のニューラルマシン翻訳モデルを作成します。
- 参考スコア(独自算出の注目度): 19.49814793168753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there are more than 7000 languages in the world, most translation
research efforts have targeted a few high-resource languages. Commercial
translation systems support only one hundred languages or fewer, and do not
make these models available for transfer to low resource languages. In this
work, we present useful tools for machine translation research: MTData,
NLCodec, and RTG. We demonstrate their usefulness by creating a multilingual
neural machine translation model capable of translating from 500 source
languages to English. We make this multilingual model readily downloadable and
usable as a service, or as a parent model for transfer-learning to even
lower-resource languages.
- Abstract(参考訳): 世界には7000以上の言語があるが、ほとんどの翻訳研究はいくつかの高ソース言語をターゲットにしている。
商用翻訳システムは100言語以下しかサポートせず、これらのモデルを低リソース言語に転送することができない。
本研究では,機械翻訳研究に有用なツールとして,MTData,NLCodec,RTGを提案する。
本稿では,500言語から英語への翻訳が可能な多言語ニューラルマシン翻訳モデルを構築し,その有用性を示す。
この多言語モデルを,サービスとして,あるいは低リソース言語へのトランスファー学習の親モデルとして,簡単にダウンロード可能かつ使用可能にする。
関連論文リスト
- Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Survey of Low-Resource Machine Translation [65.52755521004794]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。
翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文 参考訳(メタデータ) (2021-09-01T16:57:58Z) - Should we Stop Training More Monolingual Models, and Simply Use Machine
Translation Instead? [2.62121275102348]
機械翻訳は成熟した技術であり、低リソース言語のためのネイティブ言語モデルのトレーニングに深刻な反論を提起する。
英語モデルは前例のないペースで改善され、機械翻訳が改善されているため、低リソース言語からのデータを英語に翻訳することが経験的で環境的な観点からより効果的です。
論文 参考訳(メタデータ) (2021-04-21T10:21:24Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。