論文の概要: Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses
- arxiv url: http://arxiv.org/abs/2010.07638v1
- Date: Thu, 15 Oct 2020 10:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:51:41.480024
- Title: Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses
- Title(参考訳): ハイブリッド損失を有するNMTのための固有目標微調整
- Authors: Prathyusha Jwalapuram, Shafiq Joty, Youlin Shen
- Abstract要約: 我々は,訓練された機械翻訳モデルの微調整に使用する条件付き生成-識別ハイブリッド損失のクラスを導入する。
我々は、追加データを用いることなく、文レベルと文脈モデルの両方のモデル性能を改善する。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が見られた。
我々の文脈モデルは WMT14 De-En テストセットにおいて 31.81 から 32 BLEU に改善され、IWSLT13 De-En では 32.10 から 33.13 に改善された。
- 参考スコア(独自算出の注目度): 6.596002578395152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Popular Neural Machine Translation model training uses strategies like
backtranslation to improve BLEU scores, requiring large amounts of additional
data and training. We introduce a class of conditional
generative-discriminative hybrid losses that we use to fine-tune a trained
machine translation model. Through a combination of targeted fine-tuning
objectives and intuitive re-use of the training data the model has failed to
adequately learn from, we improve the model performance of both a
sentence-level and a contextual model without using any additional data. We
target the improvement of pronoun translations through our fine-tuning and
evaluate our models on a pronoun benchmark testset. Our sentence-level model
shows a 0.5 BLEU improvement on both the WMT14 and the IWSLT13 De-En testsets,
while our contextual model achieves the best results, improving from 31.81 to
32 BLEU on WMT14 De-En testset, and from 32.10 to 33.13 on the IWSLT13 De-En
testset, with corresponding improvements in pronoun translation. We further
show the generalizability of our method by reproducing the improvements on two
additional language pairs, Fr-En and Cs-En. Code available at
<https://github.com/ntunlp/pronoun-finetuning>.
- Abstract(参考訳): 一般的なニューラルマシン翻訳モデルのトレーニングでは、バックトランスレーションのような戦略を使用してbleuスコアを改善し、大量のデータとトレーニングを必要とする。
学習機械翻訳モデルの微調整に使用する条件生成-識別ハイブリッド損失のクラスを導入する。
対象とする微調整目的とモデルが適切に学習できなかったトレーニングデータの直感的な再利用を組み合わせることで,追加データを用いることなく文レベルと文脈モデルのモデル性能を向上させる。
微調整による代名詞翻訳の改善を目標とし,代名詞ベンチマークテストセットを用いてモデルの評価を行った。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が得られたが, 文脈モデルではWMT14では31.81から32BLEUに, IWSLT13では32.10から33.13に改善され, 発音翻訳が改善した。
さらに,2つの言語ペアfr-enとcs-enの改良を再現することで,その一般化可能性を示す。
コードは <https://github.com/ntunlp/pronoun-finetuning> で公開されている。
関連論文リスト
- Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - Reconsidering the Past: Optimizing Hidden States in Language Models [35.7524942657169]
本稿では,変圧器言語モデルの性能向上のための勾配に基づくHSOを提案する。
HSOは、言語モデルが評価テキストに割り当てるログ確率の勾配を計算するが、モデルパラメータではなくキャッシュされた隠れ状態の更新に使用する。
論文 参考訳(メタデータ) (2021-12-16T06:14:37Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural
Machine Translation [38.017030073108735]
本稿では,バイリンガル事前学習型言語モデル(BiBERT)が最先端の翻訳性能を実現することを示す。
我々の最良のモデルは、IWSLT'14データセットでは30.45点、IWSLT'14データセットでは38.61点、WMT'14データセットでは31.26点、WMT'14データセットでは34.94点である。
論文 参考訳(メタデータ) (2021-09-09T23:43:41Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。