Fugu-MT 論文翻訳(概要): Reward Optimization for Neural Machine Translation with Learned Metrics

論文の概要: Reward Optimization for Neural Machine Translation with Learned Metrics

arxiv url: http://arxiv.org/abs/2104.07541v1
Date: Thu, 15 Apr 2021 15:53:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-16 19:59:21.071360
Title: Reward Optimization for Neural Machine Translation with Learned Metrics
Title（参考訳）: 学習メトリクスを用いたニューラルマシン翻訳の逆最適化
Authors: Raphael Shu, Kang Min Yoo, Jung-Woo Ha
Abstract要約: 我々は,最先端のモデルベースメトリクスBLEURTを用いてニューラル機械翻訳(NMT)モデルを最適化することが有用かどうかを検討する。その結果、BLEURTによる報酬最適化は、平滑なBLEUでトレーニングする場合の限られた利益とは対照的に、メトリクススコアを大きなマージンで増加させることができます。
参考スコア（独自算出の注目度）: 18.633477083783248
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural machine translation (NMT) models are conventionally trained with token-level negative log-likelihood (NLL), which does not guarantee that the generated translations will be optimized for a selected sequence-level evaluation metric. Multiple approaches are proposed to train NMT with BLEU as the reward, in order to directly improve the metric. However, it was reported that the gain in BLEU does not translate to real quality improvement, limiting the application in industry. Recently, it became clear to the community that BLEU has a low correlation with human judgment when dealing with state-of-the-art models. This leads to the emerging of model-based evaluation metrics. These new metrics are shown to have a much higher human correlation. In this paper, we investigate whether it is beneficial to optimize NMT models with the state-of-the-art model-based metric, BLEURT. We propose a contrastive-margin loss for fast and stable reward optimization suitable for large NMT models. In experiments, we perform automatic and human evaluations to compare models trained with smoothed BLEU and BLEURT to the baseline models. Results show that the reward optimization with BLEURT is able to increase the metric scores by a large margin, in contrast to limited gain when training with smoothed BLEU. The human evaluation shows that models trained with BLEURT improve adequacy and coverage of translations. Code is available via https://github.com/naver-ai/MetricMT.
Abstract（参考訳）: ニューラルマシン翻訳(nmt)モデルは従来、トークンレベルの負のlog-likelihood(nll)で訓練されており、生成された翻訳が選択されたシーケンスレベルの評価基準に最適化されることは保証されていない。 BLEU を報奨として NMT を訓練するための複数の手法が提案されている。しかし、BLEUの上昇は実際の品質向上に寄与せず、業界における応用を制限していると報告された。近年、BLEUは最先端のモデルを扱う際の人間の判断と相関が低いことが明らかとなった。これはモデルベースの評価指標の出現につながります。これらの新しい指標は、人間の相関がはるかに高いことが示されている。本稿では,最先端のモデルベースメトリクスBLEURTを用いてNMTモデルを最適化することが有用かどうかを検討する。大規模NMTモデルに適した高速かつ安定な報酬最適化のための対照的なマージン損失を提案する。実験では,スムーズなBLEUとBLEURTで訓練したモデルとベースラインモデルとの比較を行う。その結果、BLEURTによる報酬最適化は、スムーズなBLEUでのトレーニングにおいて、限られた利得とは対照的に、メートル法スコアを大きなマージンで増加させることができることがわかった。ヒトの評価では、BLEURTで訓練されたモデルは翻訳の精度とカバレッジを向上させる。コードはhttps://github.com/naver-ai/MetricMTから入手できる。

関連論文リスト

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
Offline Model-Based Optimization by Learning to Rank [26.21886715050762]
我々は、平均二乗誤差(MSE)で訓練された回帰モデルは、オフラインモデルに基づく最適化の第一目標とうまく一致していないと論じる。そこで本稿では,学習手法のランク付けに活用し,相対的なスコアに基づいて有望な設計を優先順位付けするランキングベースモデルを提案する。
論文参考訳（メタデータ） (2024-10-15T11:15:03Z)
Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-10-04T04:56:11Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Human Evaluation of English--Irish Transformer-Based NMT [2.648836772989769]
ベストパフォーマンスのTransformerシステムは、RNNベースのモデルと比較して精度と誤差を著しく低減する。 Google Translateに対してベンチマークを行ったところ、我々の翻訳エンジンは大幅に改善された。
論文参考訳（メタデータ） (2024-03-04T11:45:46Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Better Datastore, Better Translation: Generating Datastores from Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文参考訳（メタデータ） (2022-12-17T08:34:20Z)
Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。取り出したノイズペアはモデル性能を劇的に低下させる。ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文参考訳（メタデータ） (2022-10-17T07:43:39Z)
End-to-End Training for Back-Translation with Categorical Reparameterization Trick [0.0]
バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における効果的な半教師付き学習フレームワークである事前学習されたNMTモデルは、モノリンガル文を翻訳し、他のNMTモデルのトレーニングのために合成バイリンガル文ペアを作成する。翻訳文の離散的性質は、情報勾配が2つのNMTモデル間で流れるのを防ぐ。
論文参考訳（メタデータ） (2022-02-17T06:31:03Z)
Energy-Based Reranking: Improving Neural Machine Translation Using Energy-Based Models [59.039592890187144]
自己回帰型ニューラルネットワーク翻訳(NMT)における最大推定(MLE)とBLEUスコアなどのタスク尺度の相違について検討する。 MLEベースのトレーニングされたNMTから引き出されたサンプルは、所望の分布をサポートします。ビーム復号出力と比較して、BLEUスコアがはるかに高いサンプルがあります。目的文の辺縁エネルギーモデルと、目的文の辺縁エネルギーモデルの両方を用いてアルゴリズムを改良する。
論文参考訳（メタデータ） (2020-09-20T02:50:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。