論文の概要: Maximum Entropy RL (Provably) Solves Some Robust RL Problems
- arxiv url: http://arxiv.org/abs/2103.06257v1
- Date: Wed, 10 Mar 2021 18:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 06:45:36.691904
- Title: Maximum Entropy RL (Provably) Solves Some Robust RL Problems
- Title(参考訳): 最大エントロピーRL(おそらく)はロバストなRL問題を解く
- Authors: Benjamin Eysenbach and Sergey Levine
- Abstract要約: 我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。
以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
- 参考スコア(独自算出の注目度): 94.80212602202518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many potential applications of reinforcement learning (RL) require guarantees
that the agent will perform well in the face of disturbances to the dynamics or
reward function. In this paper, we prove theoretically that standard maximum
entropy RL is robust to some disturbances in the dynamics and the reward
function. While this capability of MaxEnt RL has been observed empirically in
prior work, to the best of our knowledge our work provides the first rigorous
proof and theoretical characterization of the MaxEnt RL robust set. While a
number of prior robust RL algorithms have been designed to handle similar
disturbances to the reward function or dynamics, these methods typically
require adding additional moving parts and hyperparameters on top of a base RL
algorithm. In contrast, our theoretical results suggest that MaxEnt RL by
itself is robust to certain disturbances, without requiring any additional
modifications. While this does not imply that MaxEnt RL is the best available
robust RL method, MaxEnt RL does possess a striking simplicity and appealing
formal guarantees.
- Abstract(参考訳): 強化学習(RL)の潜在的な応用の多くは、エージェントが力学や報酬関数の障害に直面してうまく機能することを保証する必要がある。
本稿では,標準最大エントロピーRLが力学および報酬関数の障害に対して頑健であることを理論的に証明する。
MaxEnt RLのこの能力は、以前の作業で実証的に観察されていますが、私たちの知識を最大限に活用することは、MaxEnt RL堅牢なセットの最初の厳格な証明と理論的特徴付けを提供します。
従来のロバストなRLアルゴリズムは、報酬関数やダイナミックスと同様の障害を扱うように設計されているが、これらの手法は通常、ベースRLアルゴリズムの上に可動部とハイパーパラメータを追加する必要がある。
対照的に、我々の理論結果は MaxEnt RL 自体が特定の障害に対して堅牢であり、追加の修正を必要としないことを示唆している。
これは、MaxEnt RLが最高の堅牢なRL法であることを意味するわけではないが、MaxEnt RLは驚くほど単純で、形式的な保証を持っている。
関連論文リスト
- To the Max: Reinventing Reward in Reinforcement Learning [1.5498250598583487]
強化学習(RL)では、異なる報酬関数が同じ最適ポリシーを定義することができるが、結果として学習性能は大きく異なる。
我々は、エージェントが累積報酬ではなく最大値を最適化するtextitmax-reward RLを紹介した。
実験では,Gymnasium-Roboticsの2つの目標到達環境における最大回帰RLアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-02-02T12:29:18Z) - Understanding the Synergies between Quality-Diversity and Deep
Reinforcement Learning [4.788163807490196]
Generalized Actor-Critic QD-RLは、QD-RL設定におけるアクタークリティカルなディープRLメソッドのための統一的なモジュラーフレームワークである。
PGA-ME (SAC) と PGA-ME (DroQ) という2つの新しいアルゴリズムを導入し,近年のディープRLの進歩をQD-RL設定に適用した。
論文 参考訳(メタデータ) (2023-03-10T19:02:42Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Recurrent Model-Free RL is a Strong Baseline for Many POMDPs [73.39666827525782]
メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2021-10-11T07:09:14Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning
Agents via Neural Architecture Search [14.292072505007974]
本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。
我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。
そこで我々は,教師エージェントのアクターと評論家の両方から知識を抽出し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
論文 参考訳(メタデータ) (2020-12-24T04:07:36Z) - HTMRL: Biologically Plausible Reinforcement Learning with Hierarchical
Temporal Memory [1.138723572165938]
本稿では,HTMに基づく強化学習アルゴリズムHTMRLを提案する。
我々は,HTMRLが多くの状態や行動にスケールできることを経験的,統計的に示し,パターンの変化に適応するHTMの能力がRLにまで拡張できることを実証した。
HTMRLは新しいRLアプローチの最初のイテレーションであり、Meta-RLの有能なアルゴリズムに拡張される可能性がある。
論文 参考訳(メタデータ) (2020-09-18T15:05:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。