論文の概要: When does return-conditioned supervised learning work for offline
reinforcement learning?
- arxiv url: http://arxiv.org/abs/2206.01079v1
- Date: Thu, 2 Jun 2022 15:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 15:02:01.736118
- Title: When does return-conditioned supervised learning work for offline
reinforcement learning?
- Title(参考訳): リターン条件付き教師あり学習はいつオフライン強化学習に有効か?
- Authors: David Brandfonbrener, Alberto Bietti, Jacob Buckman, Romain Laroche,
Joan Bruna
- Abstract要約: 本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
- 参考スコア(独自算出の注目度): 51.899892382786526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several recent works have proposed a class of algorithms for the offline
reinforcement learning (RL) problem that we will refer to as return-conditioned
supervised learning (RCSL). RCSL algorithms learn the distribution of actions
conditioned on both the state and the return of the trajectory. Then they
define a policy by conditioning on achieving high return. In this paper, we
provide a rigorous study of the capabilities and limitations of RCSL, something
which is crucially missing in previous work. We find that RCSL returns the
optimal policy under a set of assumptions that are stronger than those needed
for the more traditional dynamic programming-based algorithms. We provide
specific examples of MDPs and datasets that illustrate the necessity of these
assumptions and the limits of RCSL. Finally, we present empirical evidence that
these limitations will also cause issues in practice by providing illustrative
experiments in simple point-mass environments and on datasets from the D4RL
benchmark.
- Abstract(参考訳): 最近のいくつかの研究は、return-conditioned supervised learning(rcsl)と呼ぶオフライン強化学習(rl)問題のためのアルゴリズムのクラスを提案している。
RCSLアルゴリズムは、状態と軌道の戻りの両方に条件付けられた動作の分布を学習する。
そして、高いリターンを達成することを条件にポリシーを定義する。
本稿では,RCSLの能力と限界に関する厳密な研究について述べる。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定の集合の下で最適なポリシーを返す。
これらの仮定の必要性とrcslの限界を説明するmdpとデータセットの具体例を提供する。
最後に,これらの制約が,d4rlベンチマークから,単純なポイントマス環境やデータセットで実証的な実験を行うことによって,実際に問題を引き起こすという実証的な証拠を示す。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Keep Doing What Worked: Behavioral Modelling Priors for Offline
Reinforcement Learning [25.099754758455415]
オフポリシー強化学習アルゴリズムは、環境相互作用の固定されたデータセットのみが利用できる設定で適用可能であることを約束する。
標準的なオフポリシーアルゴリズムは、継続的制御のためにバッチ設定で失敗する。
論文 参考訳(メタデータ) (2020-02-19T19:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。