論文の概要: Upside-Down Reinforcement Learning Can Diverge in Stochastic
Environments With Episodic Resets
- arxiv url: http://arxiv.org/abs/2205.06595v1
- Date: Fri, 13 May 2022 12:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 17:55:43.519951
- Title: Upside-Down Reinforcement Learning Can Diverge in Stochastic
Environments With Episodic Resets
- Title(参考訳): 韻律リセットを伴う確率環境におけるアップサイドダウン強化学習
- Authors: Miroslav \v{S}trupl, Francesco Faccio, Dylan R. Ashley, J\"urgen
Schmidhuber, Rupesh Kumar Srivastava
- Abstract要約: Upside-Down Reinforcement Learning (UDRL)は、価値関数を必要としない問題を解決するためのアプローチである。
Goal-Conditional Supervised Learning (GCSL)は目標達成性能の低い境界を最適化した。
これにより、任意の環境における最適ポリシーへの保証された収束を享受できるという期待が高まる。
- 参考スコア(独自算出の注目度): 4.126347193869613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Upside-Down Reinforcement Learning (UDRL) is an approach for solving RL
problems that does not require value functions and uses only supervised
learning, where the targets for given inputs in a dataset do not change over
time. Ghosh et al. proved that Goal-Conditional Supervised Learning (GCSL) --
which can be viewed as a simplified version of UDRL -- optimizes a lower bound
on goal-reaching performance. This raises expectations that such algorithms may
enjoy guaranteed convergence to the optimal policy in arbitrary environments,
similar to certain well-known traditional RL algorithms. Here we show that for
a specific episodic UDRL algorithm (eUDRL, including GCSL), this is not the
case, and give the causes of this limitation. To do so, we first introduce a
helpful rewrite of eUDRL as a recursive policy update. This formulation helps
to disprove its convergence to the optimal policy for a wide class of
stochastic environments. Finally, we provide a concrete example of a very
simple environment where eUDRL diverges. Since the primary aim of this paper is
to present a negative result, and the best counterexamples are the simplest
ones, we restrict all discussions to finite (discrete) environments, ignoring
issues of function approximation and limited sample size.
- Abstract(参考訳): Upside-Down Reinforcement Learning (UDRL)は、価値関数を必要とせず、教師付き学習のみを使用するRL問題を解決するアプローチである。
Goal-Conditional Supervised Learning (GCSL) - UDRLの簡易版と見なすことができる - が目標達成性能の低い境界を最適化することをGhoshらは証明した。
これにより、そのようなアルゴリズムは、特定のよく知られたrlアルゴリズムと同様に、任意の環境における最適ポリシーへの収束を保証できるという期待が高まる。
ここでは、特定のエピソードなUDRLアルゴリズム(eUDRL、GCSLを含む)について、これはそうではなく、この制限の原因であることを示す。
そこで我々はまず,再帰的ポリシー更新としてeUDRLの有用な書き直しを導入する。
この定式化は、幅広い確率的環境に対する最適ポリシーへの収束を阻害するのに役立つ。
最後に、eUDRLが分岐する非常に単純な環境の具体例を示す。
本論文の主な目的は負の結果を示すことであり、最も優れた反例は最も単純なものであるため、全ての議論を有限(離散)環境に限定し、関数近似や限定サンプルサイズの問題を無視している。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Provably Efficient Offline Goal-Conditioned Reinforcement Learning with
General Function Approximation and Single-Policy Concentrability [11.786486763236104]
ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。
オフラインのGCRLは、トレーニングタスクを実行するために純粋にコンパイル済みのデータセットのみを必要とする。
修正されたオフラインGCRLアルゴリズムは、一般関数近似と単一政治集中性の両方で有効であることを示す。
論文 参考訳(メタデータ) (2023-02-07T22:04:55Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。