論文の概要: Challenging Common Assumptions in Convex Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.01511v1
- Date: Thu, 3 Feb 2022 10:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 14:18:40.329621
- Title: Challenging Common Assumptions in Convex Reinforcement Learning
- Title(参考訳): 凸強化学習における共通想定の充足
- Authors: Mirco Mutti, Riccardo De Santi, Piersilvio De Bartolomeis, Marcello
Restelli
- Abstract要約: 実際の有限公試の代わりに無限公試の目的を誤って最適化することは、通常行われているように、かなりの近似誤差をもたらす可能性があることを示す。
我々はこの問題に光を当てることで、凸RLのより良いアプローチと方法論がもたらされると考えている。
- 参考スコア(独自算出の注目度): 34.739021482682176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The classic Reinforcement Learning (RL) formulation concerns the maximization
of a scalar reward function. More recently, convex RL has been introduced to
extend the RL formulation to all the objectives that are convex functions of
the state distribution induced by a policy. Notably, convex RL covers several
relevant applications that do not fall into the scalar formulation, including
imitation learning, risk-averse RL, and pure exploration. In classic RL, it is
common to optimize an infinite trials objective, which accounts for the state
distribution instead of the empirical state visitation frequencies, even though
the actual number of trajectories is always finite in practice. This is
theoretically sound since the infinite trials and finite trials objectives can
be proved to coincide and thus lead to the same optimal policy. In this paper,
we show that this hidden assumption does not hold in the convex RL setting. In
particular, we show that erroneously optimizing the infinite trials objective
in place of the actual finite trials one, as it is usually done, can lead to a
significant approximation error. Since the finite trials setting is the default
in both simulated and real-world RL, we believe shedding light on this issue
will lead to better approaches and methodologies for convex RL, impacting
relevant research areas such as imitation learning, risk-averse RL, and pure
exploration among others.
- Abstract(参考訳): 古典的強化学習(RL)の定式化はスカラー報酬関数の最大化に関するものである。
最近では、RLの定式化を政策によって誘導される状態分布の凸関数である全ての目的に拡張するために凸RLが導入されている。
特に、凸RLは、模倣学習、リスク・アバースRL、純粋な探索など、スカラー定式化に該当しないいくつかの関連する応用をカバーしている。
古典的なRLでは、実際の軌道の数は実際には有限であるにもかかわらず、経験的状態訪問頻度の代わりに状態分布を考慮に入れた無限の試行目標を最適化することが一般的である。
これは理論上、無限の試行と有限の試行の目的が一致することが証明され、したがって同じ最適ポリシーが導かれるからである。
本稿では、この隠れた仮定が凸RL設定では成立しないことを示す。
特に, 実際の有限公試に代えて, 無限公試目標を誤って最適化することは, 重大な近似誤差を生じさせることを示した。
有限トライアル設定はシミュレーションと実世界のRLの両方でデフォルトであるため、この問題に光を当てることで凸RLのより良いアプローチや方法論がもたらされ、模倣学習、リスク・アバースRL、純粋な探査など、関連する研究領域に影響を与えると信じている。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for
Last-Iterate Convergence in Constrained MDPs [31.663072540757643]
強化学習(Reinforcement Learning, RL)は, 実世界の課題に応用され, 成功を収めている。
Reinforcement Learning with Optimistic Ascent-Descent (ReLOAD)を紹介する。
論文 参考訳(メタデータ) (2023-02-02T18:05:27Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - RL with KL penalties is better viewed as Bayesian inference [4.473139775790299]
我々は、言語モデルを強化学習ポリシーとして扱う際の課題を分析する。
これらの課題を避けるには、どのようにしてRLパラダイムを超えていく必要があるかを示します。
論文 参考訳(メタデータ) (2022-05-23T12:47:13Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Decoupling Exploration and Exploitation in Reinforcement Learning [8.946655323517092]
本稿では、探索と搾取のための個別の政策を訓練するDecoupled RL(DeRL)を提案する。
複数種類の内因性報酬を持つ2つのスパース・リワード環境におけるDeRLアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-07-19T15:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。