論文の概要: When Does Monolingual Data Help Multilingual Translation: The Role of
Domain and Model Scale
- arxiv url: http://arxiv.org/abs/2305.14124v2
- Date: Wed, 18 Oct 2023 09:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:21:55.442900
- Title: When Does Monolingual Data Help Multilingual Translation: The Role of
Domain and Model Scale
- Title(参考訳): 単言語データは多言語翻訳にいつ役立つか:ドメインとモデルスケールの役割
- Authors: Christos Baziotis, Biao Zhang, Alexandra Birch, Barry Haddow
- Abstract要約: 自動符号化(DAE)と逆翻訳(BT)が機械翻訳(MMT)に与える影響について検討する。
モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。
スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。
- 参考スコア(独自算出の注目度): 79.06073102393822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual machine translation (MMT), trained on a mixture of parallel and
monolingual data, is key for improving translation in low-resource language
pairs. However, the literature offers conflicting results on the performance of
different methods of including monolingual data. To resolve this, we examine
how denoising autoencoding (DAE) and backtranslation (BT) impact MMT under
different data conditions and model scales. Unlike prior studies, we use a
realistic dataset of 100 translation directions and consider many domain
combinations of monolingual and test data. We find that monolingual data
generally helps MMT, but models are surprisingly brittle to domain mismatches,
especially at smaller model scales. BT is beneficial when the parallel,
monolingual, and test data sources are similar but can be detrimental
otherwise, while DAE is less effective than previously reported. Next, we
analyze the impact of scale (from 90M to 1.6B parameters) and find it is
important for both methods, particularly DAE. As scale increases, DAE
transitions from underperforming the parallel-only baseline at 90M to
converging with BT performance at 1.6B, and even surpassing it in low-resource.
These results offer new insights into how to best use monolingual data in MMT.
- Abstract(参考訳): 並列データと単言語データの混合に基づいて訓練された多言語機械翻訳(MMT)は、低リソース言語ペアの翻訳を改善する鍵となる。
しかし、この文献はモノリンガルデータを含む様々な方法のパフォーマンスに矛盾する結果をもたらす。
そこで本研究では,DAE(Denoising Autoencoding)とBT(Back Translation)がMPTにどう影響するかを,異なるデータ条件とモデルスケールで検討する。
従来の研究とは異なり、100の翻訳方向の現実的なデータセットを使用し、モノリンガルデータとテストデータの多くのドメインの組み合わせを検討する。
モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。
BTは、並列、単言語、およびテストデータソースが類似している場合に有用であるが、それ以外は有害であり、DAEは以前報告したよりも効果が低い。
次に、スケールの影響(90Mから1.6Bパラメータ)を分析し、これら2つの手法、特にDAEにとって重要であることを発見した。
スケールが増加するにつれて、daeは90mで並列のみのベースラインを過小評価し、1.6bでbtパフォーマンスを収束させ、低リソースでそれを超えることさえある。
これらの結果は、MTにおけるモノリンガルデータの使用方法に関する新たな洞察を提供する。
関連論文リスト
- Quantity vs. Quality of Monolingual Source Data in Automatic Text Translation: Can It Be Too Little If It Is Too Good? [2.492943108520374]
本研究は, モノリンガルデータも少なすぎるか, 品質に基づく削減が翻訳モデルの性能に与える影響について検討する。
実験により、英語とドイツ語の低リソースNMTでは、利用可能なすべてのデータを利用するよりも、品質やテストデータ領域に基づいて、最も有用な追加データのみを選択する方がよいことが示されている。
論文 参考訳(メタデータ) (2024-10-17T17:20:40Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - Complete Multilingual Neural Machine Translation [44.98358050355681]
本稿では、英語中心の並列コーパスを充実させるために、多方向整列例を用いて検討する。
このような接続パターンでMNMTを完全多言語ニューラルネットワーク翻訳(cMNMT)と呼ぶ。
対象言語のみに条件付けされた新たなトレーニングデータサンプリング戦略と組み合わせて、cMNMTは全ての言語ペアに対して競合翻訳品質を得る。
論文 参考訳(メタデータ) (2020-10-20T13:03:48Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。