論文の概要: Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model
- arxiv url: http://arxiv.org/abs/2401.12873v3
- Date: Mon, 18 Mar 2024 15:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 23:31:36.386952
- Title: Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model
- Title(参考訳): 人間のフィードバックによる機械翻訳の改善--リワードモデルによる品質評価の探索
- Authors: Zhiwei He, Xing Wang, Wenxiang Jiao, Zhuosheng Zhang, Rui Wang, Shuming Shi, Zhaopeng Tu,
- Abstract要約: 本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
- 参考スコア(独自算出の注目度): 75.66013048128302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Insufficient modeling of human preferences within the reward model is a major obstacle for leveraging human feedback to improve translation quality. Fortunately, quality estimation (QE), which predicts the quality of a given translation without reference, has achieved impressive alignment with human evaluations in the last two years. In this work, we investigate the potential of employing the QE model as the reward model to predict human preferences for feedback training. We first identify the overoptimization problem during QE-based feedback training, manifested as an increase in reward while translation quality declines. We examine the problem and argue that the vulnerability of the QE model might lead to high rewards for incorrect translations, resulting in overoptimization and error propagation. To address the problem, we adopt a simple yet effective method that uses heuristic rules to detect the incorrect translations and assigns a penalty term to the reward scores of them. Experimental results show that the proposed QE-based feedback training achieves consistent and significant improvements across various settings, further verified through human preference studies. Our subsequent analysis demonstrates the high data efficiency of the proposed QE-based feedback training: it outperforms systems using larger parallel corpora by a small amount of monolingual data. Our code is available at: https://github.com/zwhe99/FeedbackMT
- Abstract(参考訳): 報酬モデルにおける人間の嗜好の不十分なモデリングは、人間のフィードバックを活用して翻訳品質を向上させる上で大きな障害となる。
幸いなことに、ある翻訳の品質を基準なしに予測する品質評価(QE)は、過去2年間に人間の評価と顕著に一致している。
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
この問題を検証し,QEモデルの脆弱性は誤訳に対して高い報奨を与える可能性があり,過度な最適化と誤りの伝播をもたらすと論じる。
この問題に対処するために、ヒューリスティックなルールを用いて誤った翻訳を検知し、報酬のスコアにペナルティ項を割り当てる、単純で効果的な手法を採用する。
実験の結果,提案したQEに基づくフィードバックトレーニングは,様々な設定において一貫した,重要な改善を達成し,さらに人間の嗜好研究を通じて検証された。
続く分析では、QEに基づくフィードバックトレーニングの高効率性を実証し、少量のモノリンガルデータにより、より大きな並列コーパスを用いたシステムより優れていることを示す。
私たちのコードは、https://github.com/zwhe99/FeedbackMTで利用可能です。
関連論文リスト
- Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings [25.851419860597407]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク翻訳システムのトレーニングにおいて、効果的で堅牢な方法であることが証明されている。
本稿では,RL法により微細なトークンレベルの報酬機構を活用する新しい手法を提案する。
文レベルと微粒な報酬信号が翻訳品質に与える影響を比較するために, 小型・大規模翻訳データセットの実験を行った。
論文 参考訳(メタデータ) (2024-11-08T21:55:37Z) - Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。
我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。
実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T17:49:59Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Aligning Neural Machine Translation Models: Human Feedback in Training and Inference [27.84975767573212]
RLHF(Reinforcement Learning from Human feedback)は、言語モデルによって生成されたテキストの品質を向上させる技術である。
人間のアノテーションからトレーニングされたメトリクスを報酬モデルとして容易に利用できる機械翻訳(MT)では、最小ベイズリスクデコーディングと再ランクを用いた手法が最終品質の向上に成功している。
論文 参考訳(メタデータ) (2023-11-15T17:21:58Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - PreQuEL: Quality Estimation of Machine Translation Outputs in Advance [32.922128367314194]
PreQuELシステムは、実際の翻訳とは無関係に、ある文がどの程度翻訳されるかを予測する。
タスクのベースラインモデルを開発し,その性能を解析する。
本手法は,品質評価タスクの性能向上にも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-18T18:55:05Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Translation Error Detection as Rationale Extraction [36.616561917049076]
本稿では,現在最先端の文レベルQEモデルの振る舞いについて検討し,翻訳誤りを検出するために実際に説明が利用できることを示す。
単語レベルQEのための新しい半教師付き手法を導入し、(ii)特徴属性の妥当性を評価するための新しいベンチマークとしてQEタスクを提案する。
論文 参考訳(メタデータ) (2021-08-27T09:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。