論文の概要: Do You Need the Entropy Reward (in Practice)?
- arxiv url: http://arxiv.org/abs/2201.12434v1
- Date: Fri, 28 Jan 2022 21:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:38:01.770941
- Title: Do You Need the Entropy Reward (in Practice)?
- Title(参考訳): エントロピー・リワード(実践)は必要か?
- Authors: Haonan Yu, Haichao Zhang, Wei Xu
- Abstract要約: エントロピーによって課される規則化は、政策改善と政策評価の両方において、共に優れた探索、訓練の収束、学習された政策の堅牢性に寄与していると考えられている。
本稿では,ソフトアクター・クリティック(SAC)の様々なアブレーション研究を行い,エントロピーを本質的な報酬としてより深く考察する。
以上の結果から,一般にエントロピー報酬は政策評価に注意を払って適用すべきであることが示唆された。
- 参考スコア(独自算出の注目度): 29.811723497181486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximum entropy (MaxEnt) RL maximizes a combination of the original task
reward and an entropy reward. It is believed that the regularization imposed by
entropy, on both policy improvement and policy evaluation, together contributes
to good exploration, training convergence, and robustness of learned policies.
This paper takes a closer look at entropy as an intrinsic reward, by conducting
various ablation studies on soft actor-critic (SAC), a popular representative
of MaxEnt RL. Our findings reveal that in general, entropy rewards should be
applied with caution to policy evaluation. On one hand, the entropy reward,
like any other intrinsic reward, could obscure the main task reward if it is
not properly managed. We identify some failure cases of the entropy reward
especially in episodic Markov decision processes (MDPs), where it could cause
the policy to be overly optimistic or pessimistic. On the other hand, our
large-scale empirical study shows that using entropy regularization alone in
policy improvement, leads to comparable or even better performance and
robustness than using it in both policy improvement and policy evaluation.
Based on these observations, we recommend either normalizing the entropy reward
to a zero mean (SACZero), or simply removing it from policy evaluation
(SACLite) for better practical results.
- Abstract(参考訳): 最大エントロピー(MaxEnt) RLは、元のタスク報酬とエントロピー報酬の組み合わせを最大化する。
エントロピーによって課される規則化は、政策改善と政策評価の両方において、共に良好な探索、訓練の収束、学習した政策の堅牢性に寄与していると考えられている。
本稿では,MaxEnt RLの代表者であるソフトアクター・クリティック(SAC)に対する様々なアブレーション研究を行い,エントロピーを本質的な報酬としてより深く考察する。
以上の結果から,エントロピー報酬は政策評価に留意して適用すべきである。
一方、エントロピー報酬は他の固有の報酬と同様に、適切に管理されていない場合、メインタスク報酬を曖昧にすることができる。
特にエピソード的マルコフ決定過程(MDP)におけるエントロピー報酬(entropy reward)の失敗事例を同定し,政策が過度に楽観的あるいは悲観的になる可能性を示唆した。
一方,本研究は,エントロピー正規化を政策改善にのみ用いることは,政策改善と政策評価の両方で使用するよりも,同等あるいはそれ以上のパフォーマンスと堅牢性をもたらすことを示した。
これらの観測に基づいて、エントロピー報酬をゼロ平均(SACZero)に正規化するか、あるいはより実用的な結果を得るために政策評価(SACLite)から単に取り除くことを推奨する。
関連論文リスト
- Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation [0.276240219662896]
エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。
最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。
本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T15:48:24Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Predictable Reinforcement Learning Dynamics through Entropy Rate
Minimization [17.845518684835913]
強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(Predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
平均報酬目標としてエントロピー率を定式化する方法を示し,そのエントロピー報酬関数は政策依存であるため,アクション依存のサロゲートエントロピーを導入する。
論文 参考訳(メタデータ) (2023-11-30T16:53:32Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Maximum Entropy Reinforcement Learning with Mixture Policies [54.291331971813364]
MaxEntアルゴリズムを用いて混合エントロピーのトラクタブル近似を構築する。
我々は、それが限界エントロピーの合計と密接に関連していることを示しています。
我々は, 混合ポリシーケースに対するsoft actor-critic (sac) のアルゴリズム的変種を導出し, 一連の連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-03-18T11:23:39Z) - Regularized Policies are Reward Robust [33.05828095421357]
強化学習(RL)における政策の正規化の効果について検討する。
その結果,正規化目標が求める最適方針は,最悪の対向報酬の下で強化学習問題の最適方針であることがわかった。
以上の結果から,政策の正則化の効果を考察し,堅牢な報酬を通じて探索の理解を深めることができた。
論文 参考訳(メタデータ) (2021-01-18T11:38:47Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Task-Agnostic Exploration via Policy Gradient of a Non-Parametric State
Entropy Estimate [40.97686031763918]
報酬のない環境では、エージェントが最適なタスクに依存しない探索ポリシーを学習できるように、エージェントが追求すべき本質的な目的は何ですか?
有限水平軌道によって誘導される状態分布のエントロピーは、合理的な対象である。
我々は,非パラメトリックな$k$-nearest隣人の状態分布エントロピー推定を最大化するポリシを学習するために,新しい,実用的なポリシ探索アルゴリズムである最大エントロピー・ポリシー最適化(MEPOL)を提案する。
論文 参考訳(メタデータ) (2020-07-09T08:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。