論文の概要: Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution
- arxiv url: http://arxiv.org/abs/2402.11525v2
- Date: Thu, 22 Feb 2024 11:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 11:51:41.894354
- Title: Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution
- Title(参考訳): RLHFを用いた翻訳選好モデルの改良:コスト効果ソリューションへの一歩
- Authors: Nuo Xu, Jun Zhao, Can Zu, Tao Gui, Qi Zhang, Xuanjing Huang
- Abstract要約: 人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
- 参考スコア(独自算出の注目度): 54.69567284151762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Faithfulness, expressiveness, and elegance is the constant pursuit in machine
translation. However, traditional metrics like \textit{BLEU} do not strictly
align with human preference of translation quality. In this paper, we explore
leveraging reinforcement learning with human feedback (\textit{RLHF}) to
improve translation quality. It is non-trivial to collect a large high-quality
dataset of human comparisons between translations, especially for low-resource
languages. To address this issue, we propose a cost-effective preference
learning strategy, optimizing reward models by distinguishing between human and
machine translations. In this manner, the reward model learns the deficiencies
of machine translation compared to human and guides subsequent improvements in
machine translation. Experimental results demonstrate that \textit{RLHF} can
effectively enhance translation quality and this improvement benefits other
translation directions not trained with \textit{RLHF}. Further analysis
indicates that the model's language capabilities play a crucial role in
preference learning. A reward model with strong language capabilities can more
sensitively learn the subtle differences in translation quality and align
better with real human translation preferences.
- Abstract(参考訳): 忠実さ、表現力、優雅さは機械翻訳における絶え間ない追求である。
しかし、‘textit{BLEU} のような伝統的なメトリクスは、翻訳品質の人間の好みと厳密に一致しない。
本稿では,人間のフィードバックによる強化学習(\textit{RLHF})の活用による翻訳品質の向上について検討する。
特に低リソース言語において、翻訳間の人的比較の大規模な高品質データセットを収集するのは自明ではない。
この問題に対処するために,人間と機械の翻訳を区別して報酬モデルを最適化する,費用対効果の高い選好学習戦略を提案する。
このようにして、報酬モデルは人間に比べて機械翻訳の欠陥を学習し、その後の機械翻訳の改善を導く。
実験により, \textit{RLHF} は翻訳品質を効果的に向上し, この改善は, \textit{RLHF} で訓練されていない他の翻訳指導に有効であることが示された。
さらなる分析は、モデルの言語能力が嗜好学習において重要な役割を果たすことを示している。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをよりセンシティブに学習し、実際の人間の翻訳好みに合致することができる。
関連論文リスト
- Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings [25.851419860597407]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク翻訳システムのトレーニングにおいて、効果的で堅牢な方法であることが証明されている。
本稿では,RL法により微細なトークンレベルの報酬機構を活用する新しい手法を提案する。
文レベルと微粒な報酬信号が翻訳品質に与える影響を比較するために, 小型・大規模翻訳データセットの実験を行った。
論文 参考訳(メタデータ) (2024-11-08T21:55:37Z) - Iterative Translation Refinement with Large Language Models [25.90607157524168]
本稿では,翻訳を自己修正するために,大規模言語モデルを反復的に提案する。
また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。
論文 参考訳(メタデータ) (2023-06-06T16:51:03Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Detecting over/under-translation errors for determining adequacy in
human translations [0.0]
本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。
我々は、機械翻訳(mt)出力に制限はせず、特に人間が生成した翻訳パイプラインでアプリケーションをターゲットにしています。
本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。
論文 参考訳(メタデータ) (2021-04-01T06:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。