論文の概要: Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings
- arxiv url: http://arxiv.org/abs/2411.05986v2
- Date: Wed, 16 Apr 2025 13:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 21:28:08.443455
- Title: Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings
- Title(参考訳): 誤り重度マッピングを用いた機械翻訳の微粒化リワード最適化
- Authors: Miguel Moura Ramos, Tomás Almeida, Daniel Vareta, Filipe Azevedo, Sweta Agrawal, Patrick Fernandes, André F. T. Martins,
- Abstract要約: 本稿では,細粒度でトークンレベルの品質評価と,Reinforcement Learningを用いた誤り重大度レベルを利用した新しい手法を提案する。
我々は,標準エンコーダデコーダと大規模言語モデルに基づく機械翻訳システムを用いて,小型・大規模翻訳データセットの実験を行った。
その結果,トークンレベルの報酬を用いた学習は,自動評価と人的評価の両方に応じて,ベースラインを越えた言語ペア間の翻訳品質を向上させることがわかった。
- 参考スコア(独自算出の注目度): 25.851419860597407
- License:
- Abstract: Reinforcement learning (RL) has been proven to be an effective and robust method for training neural machine translation systems, especially when paired with powerful reward models that accurately assess translation quality. However, most research has focused on RL methods that use sentence-level feedback, leading to inefficient learning signals due to the reward sparsity problem -- the model receives a single score for the entire sentence. To address this, we propose a novel approach that leverages fine-grained, token-level quality assessments along with error severity levels using RL methods. Specifically, we use xCOMET, a state-of-the-art quality estimation system, as our token-level reward model. We conduct experiments on small and large translation datasets with standard encoder-decoder and large language models-based machine translation systems, comparing the impact of sentence-level versus fine-grained reward signals on translation quality. Our results show that training with token-level rewards improves translation quality across language pairs over baselines according to both automatic and human evaluation. Furthermore, token-level reward optimization improves training stability, evidenced by a steady increase in mean rewards over training epochs.
- Abstract(参考訳): 強化学習(RL)は、特に翻訳品質を正確に評価する強力な報酬モデルと組み合わせることで、ニューラルネットワーク翻訳システムのトレーニングに効果的で堅牢な方法であることが証明されている。
しかし、ほとんどの研究は、文レベルのフィードバックを使用するRL手法に焦点を当てており、報酬空間の問題による非効率な学習信号を生み出している。
そこで本研究では,RL法を用いて,粒度の細かいトークンレベルの品質評価とエラー重大度レベルを利用する新しい手法を提案する。
具体的には、トークンレベルの報酬モデルとして、最先端の品質評価システムであるxCOMETを使用します。
我々は,標準エンコーダデコーダと大規模言語モデルに基づく機械翻訳システムを用いて,小型・大規模翻訳データセットの実験を行い,文レベルと微粒な報酬信号が翻訳品質に与える影響を比較した。
その結果,トークンレベルの報酬を用いた学習は,自動評価と人的評価の両方に応じて,ベースラインを越えた言語ペア間の翻訳品質を向上させることがわかった。
さらに、トークンレベルの報酬最適化によってトレーニングの安定性が向上し、トレーニングのエポックよりも平均報酬が着実に増加することが証明される。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Aligning Neural Machine Translation Models: Human Feedback in Training and Inference [27.84975767573212]
RLHF(Reinforcement Learning from Human feedback)は、言語モデルによって生成されたテキストの品質を向上させる技術である。
人間のアノテーションからトレーニングされたメトリクスを報酬モデルとして容易に利用できる機械翻訳(MT)では、最小ベイズリスクデコーディングと再ランクを用いた手法が最終品質の向上に成功している。
論文 参考訳(メタデータ) (2023-11-15T17:21:58Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。