論文の概要: Back-translation for Large-Scale Multilingual Machine Translation
- arxiv url: http://arxiv.org/abs/2109.08712v1
- Date: Fri, 17 Sep 2021 18:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 17:00:28.301965
- Title: Back-translation for Large-Scale Multilingual Machine Translation
- Title(参考訳): 大規模多言語機械翻訳のためのバックトランスレーション
- Authors: Baohao Liao, Shahram Khadivi, Sanjika Hewavitharana
- Abstract要約: 本稿では,多言語間の共通表現がより優れた多言語翻訳性能をもたらすという仮説を用いて,単一の多言語翻訳システムを構築することを目的とする。
我々は、バイリンガル翻訳から多言語翻訳まで、さまざまなバック翻訳手法の探索を拡大する。
驚いたことに、語彙の小さい方がパフォーマンスが良くなり、モノリンガルの英語データも大幅に改善されている。
- 参考スコア(独自算出の注目度): 2.8747398859585376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper illustrates our approach to the shared task on large-scale
multilingual machine translation in the sixth conference on machine translation
(WMT-21). This work aims to build a single multilingual translation system with
a hypothesis that a universal cross-language representation leads to better
multilingual translation performance. We extend the exploration of different
back-translation methods from bilingual translation to multilingual
translation. Better performance is obtained by the constrained sampling method,
which is different from the finding of the bilingual translation. Besides, we
also explore the effect of vocabularies and the amount of synthetic data.
Surprisingly, the smaller size of vocabularies perform better, and the
extensive monolingual English data offers a modest improvement. We submitted to
both the small tasks and achieved the second place.
- Abstract(参考訳): 本稿では,機械翻訳に関する第6回会議(WMT-21)において,大規模多言語機械翻訳における共有タスクへのアプローチについて述べる。
本研究の目的は、普遍的な言語間表現が、より優れた多言語翻訳性能をもたらすという仮説に基づく、単一の多言語翻訳システムの構築である。
バイリンガル翻訳から多言語翻訳まで,様々なバックトランスレーション手法の探索を展開する。
バイリンガル翻訳の検索と異なる制約付きサンプリング法により、より優れた性能が得られる。
また,語彙の影響や合成データの量についても検討する。
意外なことに、語彙のサイズが小さいほどパフォーマンスが良く、英語の広範にわたるデータは、ささやかな改善をもたらす。
私たちは両方の小さなタスクを提出し、2位を達成しました。
関連論文リスト
- Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Bilex Rx: Lexical Data Augmentation for Massively Multilingual Machine
Translation [33.6064740446337]
この研究は、この問題に対処するための安価で豊富な資源であるバイリンガル・レキシカを探求する。
我々は,ウェブクローリングテキストを用いた200言語翻訳モデルを用いて,実世界の辞書におけるバイリンガル辞書の有効性を検証した。
筆者らは,(1)語彙データ拡張を用いて,教師なし翻訳の性能向上を実証し,(2)データ拡張のいくつかの家系を比較し,それらが類似した改善をもたらすことを示すとともに,(3)より大きく,ノイズの多いレキシカよりも慎重にキュレートされたレキシカの重要性を示す。
論文 参考訳(メタデータ) (2023-03-27T14:54:43Z) - Synergy with Translation Artifacts for Training and Inference in
Multilingual Tasks [11.871523410051527]
本稿では,両翻訳を同時に組み合わせることで,多言語文分類タスクにおける結果の相乗化が可能であることを示す。
本研究では,SupCon と MixUp を併用した言語間微調整アルゴリズム MUSC を提案する。
論文 参考訳(メタデータ) (2022-10-18T04:55:24Z) - FST: the FAIR Speech Translation System for the IWSLT21 Multilingual
Shared Task [36.51221186190272]
IWSLT 2021評価キャンペーンに提出したエンドツーエンドの多言語音声翻訳システムについて述べる。
本システムは,モダリティ,タスク,言語間の伝達学習を活用して構築する。
論文 参考訳(メタデータ) (2021-07-14T19:43:44Z) - Towards Continual Learning for Multilingual Machine Translation via
Vocabulary Substitution [16.939016405962526]
多言語機械翻訳モデルの言語能力を拡張するための簡単な語彙適応スキームを提案する。
提案手法は大規模データセットに適合し,未知のスクリプトを持つ遠隔言語に適用し,元の言語ペアの翻訳性能をわずかに低下させるだけである。
論文 参考訳(メタデータ) (2021-03-11T17:10:21Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。