論文の概要: Count-Based Temperature Scheduling for Maximum Entropy Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2111.14204v1
- Date: Sun, 28 Nov 2021 18:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 08:15:10.806007
- Title: Count-Based Temperature Scheduling for Maximum Entropy Reinforcement
Learning
- Title(参考訳): 最大エントロピー強化学習のためのカウントベース温度スケジューリング
- Authors: Dailin Hu, Pieter Abbeel, Roy Fox
- Abstract要約: Max RLアルゴリズムは、トレーニングの安定性と堅牢性を改善するために報酬とポリシーのエントロピーをトレードオフする。
ほとんどのマックスRL法は、ノイズ値推定への過度な適合を避けるために、一定のトレードオフ係数(温度)を用いる。
簡単な状態ベース温度スケジューリング手法を提案し、それを数量ベースQ-Learning(CB)としてインスタンス化する。
おもちゃのドメインといくつかのアタリ2600ドメインのアプローチを評価し,有望な結果を示した。
- 参考スコア(独自算出の注目度): 81.30916012273161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maximum Entropy Reinforcement Learning (MaxEnt RL) algorithms such as Soft
Q-Learning (SQL) and Soft Actor-Critic trade off reward and policy entropy,
which has the potential to improve training stability and robustness. Most
MaxEnt RL methods, however, use a constant tradeoff coefficient (temperature),
contrary to the intuition that the temperature should be high early in training
to avoid overfitting to noisy value estimates and decrease later in training as
we increasingly trust high value estimates to truly lead to good rewards.
Moreover, our confidence in value estimates is state-dependent, increasing
every time we use more evidence to update an estimate. In this paper, we
present a simple state-based temperature scheduling approach, and instantiate
it for SQL as Count-Based Soft Q-Learning (CBSQL). We evaluate our approach on
a toy domain as well as in several Atari 2600 domains and show promising
results.
- Abstract(参考訳): 最大エントロピー強化学習(MaxEnt RL)アルゴリズム(Soft Q-Learning (SQL)やSoft Actor-Critic)は報酬とポリシーのエントロピーをトレードオフし、トレーニングの安定性と堅牢性を改善する可能性がある。
しかし、ほとんどの最大rl法では一定のトレードオフ係数(温度)を用いるが、高値推定を信頼し、本当に良い報酬を得られるようにすることで、ノイズ値推定の過度さを回避し、トレーニングの後に低下させるため、トレーニングの早期に温度が高いべきであるという直観とは対照的である。
さらに、価値見積への信頼は状態依存であり、見積もりを更新するためにより多くのエビデンスを使用するたびに増加します。
本稿では, 簡単な状態ベース温度スケジューリング手法を提案し, CBSQL(Count-Based Soft Q-Learning)としてSQL用にインスタンス化する。
おもちゃのドメインといくつかのアタリ2600ドメインのアプローチを評価し,有望な結果を示した。
関連論文リスト
- Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation [2.2120851074630177]
ロボット制御タスクでは、シミュレーションにおいて強化学習(RL)によって訓練されたポリシーは、物理ハードウェアにデプロイされた場合、しばしばパフォーマンス低下を経験する。
リプシッツ正則化は、近似値関数勾配の条件付けに役立ち、訓練後のロバスト性の向上につながる。
論文 参考訳(メタデータ) (2024-04-22T05:01:29Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical
Report [117.23323653198297]
ユーザが経験した情報の鮮度と、センサが消費するエネルギーのバランスをとっています。
対応するステータス更新手順を継続的なマルコフ決定プロセス(MDP)としてキャストします。
次元の呪いを回避するため,我々は深層強化学習(DRL)アルゴリズムを設計するための方法論を確立した。
論文 参考訳(メタデータ) (2021-04-13T12:29:55Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Deep Reinforcement Learning with Weighted Q-Learning [43.823659028488876]
Q-learningに基づく強化学習アルゴリズムは、複雑な問題の解決に向けて、Deep Reinforcement Learning (DRL)研究を推進している。
Q-Learningは、期待値の雑音の最大過度推定を用いて学習するため、正の偏りがあることが知られている。
提案手法は, 提案手法により, バイアスw.r.t.関連ベースラインを減らし, その優位性を示す実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-03-20T13:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。