論文の概要: MAD for Robust Reinforcement Learning in Machine Translation
- arxiv url: http://arxiv.org/abs/2207.08583v1
- Date: Mon, 18 Jul 2022 13:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:08:28.278455
- Title: MAD for Robust Reinforcement Learning in Machine Translation
- Title(参考訳): 機械翻訳におけるロバスト強化学習のためのMAD
- Authors: Domenic Donato, Lei Yu, Wang Ling, Chris Dyer
- Abstract要約: 本稿では,既存の報酬対応トレーニング手法よりも優れた分散ポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムはMADと呼ばれ、分散データジェネレータがワーカノード上のソース文毎に複数の候補をサンプリングし、中央学習者がポリシーを更新する。
様々な翻訳タスクの実験により、欲求デコーディングとビームサーチの両方を用いてMADアルゴリズムを用いて学習したポリシーは、非常によく機能することが示された。
- 参考スコア(独自算出の注目度): 27.389876425150305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new distributed policy gradient algorithm and show that it
outperforms existing reward-aware training procedures such as REINFORCE,
minimum risk training (MRT) and proximal policy optimization (PPO) in terms of
training stability and generalization performance when optimizing machine
translation models. Our algorithm, which we call MAD (on account of using the
mean absolute deviation in the importance weighting calculation), has
distributed data generators sampling multiple candidates per source sentence on
worker nodes, while a central learner updates the policy. MAD depends crucially
on two variance reduction strategies: (1) a conditional reward normalization
method that ensures each source sentence has both positive and negative reward
translation examples and (2) a new robust importance weighting scheme that acts
as a conditional entropy regularizer. Experiments on a variety of translation
tasks show that policies learned using the MAD algorithm perform very well when
using both greedy decoding and beam search, and that the learned policies are
sensitive to the specific reward used during training.
- Abstract(参考訳): 本稿では,新たな分散ポリシー勾配アルゴリズムを導入し,機械翻訳モデルの最適化における学習安定性と一般化性能の観点から,mrtやppoといった既存の報酬対応訓練手順よりも優れていることを示す。
我々のアルゴリズムはMADと呼ばれ(重み付け計算における平均絶対偏差を用いて)、分散データ生成器がワーカーノード上のソース文毎に複数の候補をサンプリングし、中央学習者がポリシーを更新する。
madは、(1)各文が正と負の両方の報酬翻訳例を持つことを保証する条件付き報酬正規化法、(2)条件付きエントロピー正規化として働く新しい堅牢な重要性重み付けスキームである。
各種翻訳タスクの実験では、グリージーデコードとビームサーチの両方を用いてMADアルゴリズムを用いて学習したポリシーがよく機能し、学習されたポリシーはトレーニング中に使用する特定の報酬に敏感であることが示されている。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance [3.062772835338966]
本稿では,長期平均値を持つ無限段階離散時間マルコフ決定過程(MDP)の最適化問題について検討する。
性能差式が導出され、任意の2つの異なるポリシーの下で、MPPの平均分散結合メトリクスの差を定量化することができる。
最適政策の必要条件と決定論的政策の最適性が導出される。
論文 参考訳(メタデータ) (2020-08-09T10:35:35Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。