論文の概要: Evaluating Low-Resource Machine Translation between Chinese and
Vietnamese with Back-Translation
- arxiv url: http://arxiv.org/abs/2003.02197v2
- Date: Fri, 6 Mar 2020 04:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 13:09:04.363281
- Title: Evaluating Low-Resource Machine Translation between Chinese and
Vietnamese with Back-Translation
- Title(参考訳): バックトランスレーションによる中国語とベトナム語の低リソース機械翻訳の評価
- Authors: Hongzheng Li and Heyan Huang
- Abstract要約: 後方翻訳(BT)は広く使われ、ニューラルネットワーク翻訳(NMT)におけるデータ拡張の標準手法の1つとなっている。
ベトナム語、ベトナム語、中国語のNMTモデルと統計的機械翻訳(SMT)モデルの両方に対して、文字ベースおよび単語ベースの設定で合成データの異なるサイズの影響を評価し、比較する。
- 参考スコア(独自算出の注目度): 32.25731930652532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Back translation (BT) has been widely used and become one of standard
techniques for data augmentation in Neural Machine Translation (NMT), BT has
proven to be helpful for improving the performance of translation effectively,
especially for low-resource scenarios. While most works related to BT mainly
focus on European languages, few of them study languages in other areas around
the world. In this paper, we investigate the impacts of BT on Asia language
translations between the extremely low-resource Chinese and Vietnamese language
pair. We evaluate and compare the effects of different sizes of synthetic data
on both NMT and Statistical Machine Translation (SMT) models for Chinese to
Vietnamese and Vietnamese to Chinese, with character-based and word-based
settings. Some conclusions from previous works are partially confirmed and we
also draw some other interesting findings and conclusions, which are beneficial
to understand BT further.
- Abstract(参考訳): バックトランスフォーメーション(BT)は、ニューラルネットワークトランスフォーメーション(NMT)におけるデータ拡張の標準技術のひとつであり、特に低リソースシナリオにおいて、効率的な翻訳性能向上に役立つことが証明されている。
BTに関連する作品の多くは主にヨーロッパの言語に焦点を当てているが、世界中の他の地域で言語を学ぶものはほとんどない。
本稿では,BTが極低資源中国語とベトナム語間のアジア言語翻訳に与える影響について検討する。
ベトナム語、ベトナム語、中国語のNMTモデルと統計的機械翻訳(SMT)モデルの両方に対して、文字ベースおよび単語ベースの設定で合成データの異なるサイズの影響を評価し比較する。
過去の研究から得られた結論の一部は部分的に確認されており、BTのさらなる理解に有益である興味深い発見や結論もいくつか出ている。
関連論文リスト
- An Empirical Study on the Robustness of Massively Multilingual Neural Machine Translation [40.08063412966712]
多言語多言語ニューラルマシン翻訳(MMNMT)は低リソース言語の翻訳品質を高めることが証明されている。
インドネシア・中国語翻訳のためのロバストネス評価ベンチマークデータセットを作成する。
このデータセットは、異なるサイズの4つのNLLB-200モデルを使用して、自動的に中国語に翻訳される。
論文 参考訳(メタデータ) (2024-05-13T12:01:54Z) - Investigating Bias in Multilingual Language Models: Cross-Lingual
Transfer of Debiasing Techniques [3.9673530817103333]
脱バイアス技術の言語間移動は実現可能であるだけでなく、有望な結果をもたらす。
我々の分析では、CrowS-Pairsデータセットの翻訳を用いて、SentenceDebiasを異なる言語にまたがる最高のテクニックであると同定した。
論文 参考訳(メタデータ) (2023-10-16T11:43:30Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale [73.69252847606212]
自動符号化(DAE)と逆翻訳(BT)が機械翻訳(MMT)に与える影響について検討する。
モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。
スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。
論文 参考訳(メタデータ) (2023-05-23T14:48:42Z) - Data-adaptive Transfer Learning for Translation: A Case Study in Haitian
and Jamaican [4.4096464238164295]
転送の有効性は,学習データ量と言語間の関係と相関していることを示す。
規則に基づくフランス・ハイチの正書法・構文エンジンと音韻埋め込みの新しい手法を提案する。
非常に低リソースのジャマイカ MT では、正書法的な類似性のためのコードスイッチングは 6.63 BLEU 点の優位性をもたらす。
論文 参考訳(メタデータ) (2022-09-13T20:58:46Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - On the Complementarity between Pre-Training and Back-Translation for
Neural Machine Translation [63.914940899327966]
事前学習(PT)と後方翻訳(BT)は単言語データを利用するためのシンプルで強力な方法である。
本稿では,PTとBTの相補性について検討する。
我々は、WMT16英語-ルーマニア語と英語-ロシア語ベンチマークで最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2021-10-05T04:01:36Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。