論文の概要: Exploring Supervised and Unsupervised Rewards in Machine Translation
- arxiv url: http://arxiv.org/abs/2102.11403v1
- Date: Mon, 22 Feb 2021 23:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 14:02:50.942982
- Title: Exploring Supervised and Unsupervised Rewards in Machine Translation
- Title(参考訳): 機械翻訳における監督および監督されていない報酬の探索
- Authors: Julia Ive, Zixu Wang, Marina Fomicheva, Lucia Specia
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、トレーニングで使用する損失関数と、テスト時に使用する最終的な評価指標の相違に対処する強力なフレームワークである。
a)報酬関数を最大化するだけでなく、ピーク分布を回避するためにアクション空間を探索するエントロピー正規化RL法と、(b)探索と搾取のバランスをとるために動的に監視されていない報酬関数を探索する新しいRL法である。
- 参考スコア(独自算出の注目度): 29.245949896075864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is a powerful framework to address the
discrepancy between loss functions used during training and the final
evaluation metrics to be used at test time. When applied to neural Machine
Translation (MT), it minimises the mismatch between the cross-entropy loss and
non-differentiable evaluation metrics like BLEU. However, the suitability of
these metrics as reward function at training time is questionable: they tend to
be sparse and biased towards the specific words used in the reference texts. We
propose to address this problem by making models less reliant on such metrics
in two ways: (a) with an entropy-regularised RL method that does not only
maximise a reward function but also explore the action space to avoid peaky
distributions; (b) with a novel RL method that explores a dynamic unsupervised
reward function to balance between exploration and exploitation. We base our
proposals on the Soft Actor-Critic (SAC) framework, adapting the off-policy
maximum entropy model for language generation applications such as MT. We
demonstrate that SAC with BLEU reward tends to overfit less to the training
data and performs better on out-of-domain data. We also show that our dynamic
unsupervised reward can lead to better translation of ambiguous words.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、トレーニングで使用する損失関数と、テスト時に使用する最終的な評価指標の相違に対処する強力なフレームワークである。
ニューラルマシン翻訳(MT)に適用すると、クロスエントロピー損失とBLEUのような非差別化評価指標のミスマッチを最小限に抑えます。
しかし、トレーニング時の報酬関数としてのこれらの指標の適合性は疑問視され、参照テキストで使われる特定の単語に対して疎く偏りがちである。
a) 報酬関数を最大化するだけでなく、ピーク分布を避けるために行動空間を探索するエントロピー正規化rl法(entropy-regularized rl method) と、探索と搾取のバランスをとるために動的に教師なし報酬関数を探索する新しいrl法(rl method)である。
SAC(Soft Actor-Critic)フレームワークに基づいて提案を行い、MTなどの言語生成アプリケーションにオフポリシの最大エントロピーモデルを適用します。
bleu報酬のあるsacは、トレーニングデータに過度に適合せず、ドメイン外データよりも優れたパフォーマンスを示す。
また、我々の動的教師なし報酬が曖昧な単語のより良い翻訳につながることも示している。
関連論文リスト
- Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings [25.851419860597407]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク翻訳システムのトレーニングにおいて、効果的で堅牢な方法であることが証明されている。
本稿では,RL法により微細なトークンレベルの報酬機構を活用する新しい手法を提案する。
文レベルと微粒な報酬信号が翻訳品質に与える影響を比較するために, 小型・大規模翻訳データセットの実験を行った。
論文 参考訳(メタデータ) (2024-11-08T21:55:37Z) - LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs [27.014415210732103]
強化学習のための新しいサンプル効率フレームワークである textbfLanguage textbfModel textbfGuided textbfTrade-offs (textbfLMGT) を紹介する。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。