論文の概要: Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings
- arxiv url: http://arxiv.org/abs/2411.05986v1
- Date: Fri, 08 Nov 2024 21:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:25.405980
- Title: Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings
- Title(参考訳): 誤り重度マッピングを用いた機械翻訳の微粒化リワード最適化
- Authors: Miguel Moura Ramos, Tomás Almeida, Daniel Vareta, Filipe Azevedo, Sweta Agrawal, Patrick Fernandes, André F. T. Martins,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク翻訳システムのトレーニングにおいて、効果的で堅牢な方法であることが証明されている。
本稿では,RL法により微細なトークンレベルの報酬機構を活用する新しい手法を提案する。
文レベルと微粒な報酬信号が翻訳品質に与える影響を比較するために, 小型・大規模翻訳データセットの実験を行った。
- 参考スコア(独自算出の注目度): 25.851419860597407
- License:
- Abstract: Reinforcement learning (RL) has been proven to be an effective and robust method for training neural machine translation systems, especially when paired with powerful reward models that accurately assess translation quality. However, most research has focused on RL methods that use sentence-level feedback, which leads to inefficient learning signals due to the reward sparsity problem -- the model receives a single score for the entire sentence. To address this, we introduce a novel approach that leverages fine-grained token-level reward mechanisms with RL methods. We use xCOMET, a state-of-the-art quality estimation system as our token-level reward model. xCOMET provides detailed feedback by predicting fine-grained error spans and their severity given source-translation pairs. We conduct experiments on small and large translation datasets to compare the impact of sentence-level versus fine-grained reward signals on translation quality. Our results show that training with token-level rewards improves translation quality across language pairs over baselines according to automatic and human evaluation. Furthermore, token-level reward optimization also improves training stability, evidenced by a steady increase in mean rewards over training epochs.
- Abstract(参考訳): 強化学習(RL)は、特に翻訳品質を正確に評価する強力な報酬モデルと組み合わせることで、ニューラルネットワーク翻訳システムのトレーニングに効果的で堅牢な方法であることが証明されている。
しかし、ほとんどの研究は、文レベルのフィードバックを使用するRL手法に焦点を当てており、報酬空間の問題による非効率な学習信号につながる。
この問題に対処するために,RL法により微細なトークンレベルの報酬機構を活用する新しい手法を提案する。
我々はトークンレベルの報酬モデルとして,最先端の品質評価システムであるxCOMETを使用している。
xCOMETは、ソース-トランスレーションのペアに対して、きめ細かいエラースパンとその重大度を予測することで、詳細なフィードバックを提供する。
文レベルと微粒な報酬信号が翻訳品質に与える影響を比較するために, 小型・大規模翻訳データセットの実験を行った。
この結果から,トークンレベルの報酬を用いた学習は,ベースラインを越えた言語ペア間の翻訳品質を,自動的および人的評価により向上させることが示された。
さらに、トークンレベルの報酬最適化はトレーニングの安定性も向上し、トレーニングのエポックよりも平均報酬が着実に増加することが証明されている。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Aligning Neural Machine Translation Models: Human Feedback in Training and Inference [27.84975767573212]
RLHF(Reinforcement Learning from Human feedback)は、言語モデルによって生成されたテキストの品質を向上させる技術である。
人間のアノテーションからトレーニングされたメトリクスを報酬モデルとして容易に利用できる機械翻訳(MT)では、最小ベイズリスクデコーディングと再ランクを用いた手法が最終品質の向上に成功している。
論文 参考訳(メタデータ) (2023-11-15T17:21:58Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。