論文の概要: Reward Optimization for Neural Machine Translation with Learned Metrics
- arxiv url: http://arxiv.org/abs/2104.07541v1
- Date: Thu, 15 Apr 2021 15:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 19:59:21.071360
- Title: Reward Optimization for Neural Machine Translation with Learned Metrics
- Title(参考訳): 学習メトリクスを用いたニューラルマシン翻訳の逆最適化
- Authors: Raphael Shu, Kang Min Yoo, Jung-Woo Ha
- Abstract要約: 我々は,最先端のモデルベースメトリクスBLEURTを用いてニューラル機械翻訳(NMT)モデルを最適化することが有用かどうかを検討する。
その結果、BLEURTによる報酬最適化は、平滑なBLEUでトレーニングする場合の限られた利益とは対照的に、メトリクススコアを大きなマージンで増加させることができます。
- 参考スコア(独自算出の注目度): 18.633477083783248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine translation (NMT) models are conventionally trained with
token-level negative log-likelihood (NLL), which does not guarantee that the
generated translations will be optimized for a selected sequence-level
evaluation metric. Multiple approaches are proposed to train NMT with BLEU as
the reward, in order to directly improve the metric. However, it was reported
that the gain in BLEU does not translate to real quality improvement, limiting
the application in industry. Recently, it became clear to the community that
BLEU has a low correlation with human judgment when dealing with
state-of-the-art models. This leads to the emerging of model-based evaluation
metrics. These new metrics are shown to have a much higher human correlation.
In this paper, we investigate whether it is beneficial to optimize NMT models
with the state-of-the-art model-based metric, BLEURT. We propose a
contrastive-margin loss for fast and stable reward optimization suitable for
large NMT models. In experiments, we perform automatic and human evaluations to
compare models trained with smoothed BLEU and BLEURT to the baseline models.
Results show that the reward optimization with BLEURT is able to increase the
metric scores by a large margin, in contrast to limited gain when training with
smoothed BLEU. The human evaluation shows that models trained with BLEURT
improve adequacy and coverage of translations. Code is available via
https://github.com/naver-ai/MetricMT.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)モデルは従来、トークンレベルの負のlog-likelihood(nll)で訓練されており、生成された翻訳が選択されたシーケンスレベルの評価基準に最適化されることは保証されていない。
BLEU を報奨として NMT を訓練するための複数の手法が提案されている。
しかし、BLEUの上昇は実際の品質向上に寄与せず、業界における応用を制限していると報告された。
近年、BLEUは最先端のモデルを扱う際の人間の判断と相関が低いことが明らかとなった。
これはモデルベースの評価指標の出現につながります。
これらの新しい指標は、人間の相関がはるかに高いことが示されている。
本稿では,最先端のモデルベースメトリクスBLEURTを用いてNMTモデルを最適化することが有用かどうかを検討する。
大規模NMTモデルに適した高速かつ安定な報酬最適化のための対照的なマージン損失を提案する。
実験では,スムーズなBLEUとBLEURTで訓練したモデルとベースラインモデルとの比較を行う。
その結果、BLEURTによる報酬最適化は、スムーズなBLEUでのトレーニングにおいて、限られた利得とは対照的に、メートル法スコアを大きなマージンで増加させることができることがわかった。
ヒトの評価では、BLEURTで訓練されたモデルは翻訳の精度とカバレッジを向上させる。
コードはhttps://github.com/naver-ai/MetricMTから入手できる。
関連論文リスト
- Human Evaluation of English--Irish Transformer-Based NMT [2.648836772989769]
ベストパフォーマンスのTransformerシステムは、RNNベースのモデルと比較して精度と誤差を著しく低減する。
Google Translateに対してベンチマークを行ったところ、我々の翻訳エンジンは大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T11:45:46Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - Minimum Bayes Risk Decoding with Neural Metrics of Translation Quality [16.838064121696274]
この作業は、翻訳品質の多様な自動メトリクスを最適化するために、最小ベイズリスクデコーディングを適用します。
実験により、神経翻訳モデルと神経基準に基づく計量であるBLEURTを組み合わせることで、自動評価と人的評価が大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2021-11-17T20:48:02Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses [6.596002578395152]
我々は,訓練された機械翻訳モデルの微調整に使用する条件付き生成-識別ハイブリッド損失のクラスを導入する。
我々は、追加データを用いることなく、文レベルと文脈モデルの両方のモデル性能を改善する。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が見られた。
我々の文脈モデルは WMT14 De-En テストセットにおいて 31.81 から 32 BLEU に改善され、IWSLT13 De-En では 32.10 から 33.13 に改善された。
論文 参考訳(メタデータ) (2020-10-15T10:11:40Z) - Energy-Based Reranking: Improving Neural Machine Translation Using
Energy-Based Models [59.039592890187144]
自己回帰型ニューラルネットワーク翻訳(NMT)における最大推定(MLE)とBLEUスコアなどのタスク尺度の相違について検討する。
MLEベースのトレーニングされたNMTから引き出されたサンプルは、所望の分布をサポートします。ビーム復号出力と比較して、BLEUスコアがはるかに高いサンプルがあります。
目的文の辺縁エネルギーモデルと、目的文の辺縁エネルギーモデルの両方を用いてアルゴリズムを改良する。
論文 参考訳(メタデータ) (2020-09-20T02:50:52Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。