論文の概要: Addressing Exposure Bias With Document Minimum Risk Training: Cambridge
at the WMT20 Biomedical Translation Task
- arxiv url: http://arxiv.org/abs/2010.05333v1
- Date: Sun, 11 Oct 2020 20:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:33:27.835072
- Title: Addressing Exposure Bias With Document Minimum Risk Training: Cambridge
at the WMT20 Biomedical Translation Task
- Title(参考訳): ドキュメント最小リスクトレーニングによる暴露バイアスに対処する - cambridge at the wmt20 biomedical translation task
- Authors: Danielle Saunders and Bill Byrne
- Abstract要約: 2020年のWMT生物医学翻訳タスクは、メドラインの抽象翻訳を評価した。
UNICAMのエントリーは、最小リスクトレーニングの堅牢なバリエーションを使用して微調整中にこの問題に対処する。
MRTファインチューニングでは,英語・ドイツ語・英語・スペイン語の生体医学的翻訳のどちらにおいても良好な結果が得られた。
- 参考スコア(独自算出の注目度): 21.44025591721678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 2020 WMT Biomedical translation task evaluated Medline abstract
translations. This is a small-domain translation task, meaning limited relevant
training data with very distinct style and vocabulary. Models trained on such
data are susceptible to exposure bias effects, particularly when training
sentence pairs are imperfect translations of each other. This can result in
poor behaviour during inference if the model learns to neglect the source
sentence.
The UNICAM entry addresses this problem during fine-tuning using a robust
variant on Minimum Risk Training. We contrast this approach with data-filtering
to remove `problem' training examples. Under MRT fine-tuning we obtain good
results for both directions of English-German and English-Spanish biomedical
translation. In particular we achieve the best English-to-Spanish translation
result and second-best Spanish-to-English result, despite using only single
models with no ensembling.
- Abstract(参考訳): 2020年のWMT生物医学翻訳は、メドラインの抽象翻訳を評価した。
これは、非常に異なるスタイルと語彙を持つ限られた関連するトレーニングデータを意味する、小さなドメイン翻訳タスクである。
このようなデータに基づいてトレーニングされたモデルは、特にトレーニングされた文ペアが互いに不完全な翻訳である場合、露出バイアス効果に影響を受けやすい。
これにより、モデルが原文を無視することを学ぶと、推論中の振る舞いが悪くなる可能性がある。
UNICAMのエントリーは、最小リスクトレーニングの堅牢なバリエーションを使用して微調整中にこの問題に対処する。
このアプローチをデータフィルタリングと対比して,‘problem’トレーニング例を削除する。
MRTファインチューニングでは,英語・ドイツ語・英語・スペイン語の両文の翻訳が良好な結果を得た。
特に、アンサンブルのない単一のモデルのみを使用しながら、英語とスペイン語の最高の翻訳結果とスペイン語と英語の2番目に良い結果を達成する。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Original or Translated? A Causal Analysis of the Impact of
Translationese on Machine Translation Performance [31.47795931399995]
人間に翻訳されたテキストは、同じ言語で自然に書かれたテキストとは異なる特徴を示す。
翻訳に関する既存の研究はいくつかの重要な要因を無視しており、結論は主として相関性があるが因果関係ではない。
これら2つの要因がMT性能に大きな因果関係を持つことを示す。
論文 参考訳(メタデータ) (2022-05-04T19:17:55Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。