論文の概要: Exploring Diversity in Back Translation for Low-Resource Machine
Translation
- arxiv url: http://arxiv.org/abs/2206.00564v1
- Date: Wed, 1 Jun 2022 15:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 17:20:08.806910
- Title: Exploring Diversity in Back Translation for Low-Resource Machine
Translation
- Title(参考訳): 低リソース機械翻訳におけるバック翻訳の多様性の検討
- Authors: Laurie Burchell, Alexandra Birch, Kenneth Heafield
- Abstract要約: バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
- 参考スコア(独自算出の注目度): 85.03257601325183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Back translation is one of the most widely used methods for improving the
performance of neural machine translation systems. Recent research has sought
to enhance the effectiveness of this method by increasing the 'diversity' of
the generated translations. We argue that the definitions and metrics used to
quantify 'diversity' in previous work have been insufficient. This work puts
forward a more nuanced framework for understanding diversity in training data,
splitting it into lexical diversity and syntactic diversity. We present novel
metrics for measuring these different aspects of diversity and carry out
empirical analysis into the effect of these types of diversity on final neural
machine translation model performance for low-resource
English$\leftrightarrow$Turkish and mid-resource
English$\leftrightarrow$Icelandic. Our findings show that generating back
translation using nucleus sampling results in higher final model performance,
and that this method of generation has high levels of both lexical and
syntactic diversity. We also find evidence that lexical diversity is more
important than syntactic for back translation performance.
- Abstract(参考訳): バックトランスレーションは、ニューラルマシン翻訳システムの性能を向上させる最も広く使われている方法の1つである。
近年の研究では、生成された翻訳の「多様性」を高めることで、この手法の有効性を高めようとしている。
従来の作業における'多様性'の定量化に使われる定義とメトリクスは不十分である、と我々は主張する。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
本稿では、これらの多様性の異なる側面を測定するための新しい指標を示し、これらの多様性が低リソース英語$\leftrightarrow$turkishおよび中リソース英語$\leftrightarrow$icelandicの最終的なニューラルマシン翻訳モデル性能に与える影響について実証分析を行う。
以上の結果から,核サンプリングを用いた逆翻訳は最終モデルの性能が向上し,この生成法は語彙的および構文的多様性が高まることが示された。
また,語彙の多様性は,逆翻訳性能の構文よりも重要であることを示す。
関連論文リスト
- Towards Tailored Recovery of Lexical Diversity in Literary Machine Translation [11.875491080062233]
機械翻訳は人間翻訳よりも語彙的に劣っている。
本稿では,原文と翻訳文を区別する分類器を用いて,翻訳候補を再ランク付けする手法を提案する。
我々は,31の英蘭本翻訳に対するアプローチを評価し,ある書籍について,人間の翻訳に近い語彙的多様性のスコアを抽出することを発見した。
論文 参考訳(メタデータ) (2024-08-30T14:12:04Z) - A Systematic Analysis of Subwords and Cross-Lingual Transfer in Multilingual Translation [8.30255326875704]
サブワード規則化は多言語モデリングのシナジーを高めるが、BPEはより効果的に言語間微調整の移行を促進する。
本研究は,サブワードモデリングに関する決定が,多言語モデリングの利点を最適化するための鍵となることを確認した。
論文 参考訳(メタデータ) (2024-03-29T13:09:23Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - Uncertainty-Aware Semantic Augmentation for Neural Machine Translation [37.555675157198145]
本稿では,複数の意味的に等価なソース文間の普遍的な意味情報を明示的にキャプチャする不確実性を考慮した意味拡張を提案する。
我々のアプローチは、強いベースラインと既存の手法を大きく上回る。
論文 参考訳(メタデータ) (2020-10-09T07:48:09Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。