論文の概要: Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.05993v1
- Date: Mon, 10 Jun 2024 03:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 15:06:21.967723
- Title: Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における単一課題からの複数解の発見
- Authors: Takayuki Osa, Tatsuya Harada,
- Abstract要約: オフライン強化学習において,一つのタスクから複数の解を学習するアルゴリズムを提案する。
実験の結果,提案アルゴリズムはオフラインRLにおいて,定性的,定量的に複数の解を学習することがわかった。
- 参考スコア(独自算出の注目度): 51.00472376469131
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies on online reinforcement learning (RL) have demonstrated the advantages of learning multiple behaviors from a single task, as in the case of few-shot adaptation to a new environment. Although this approach is expected to yield similar benefits in offline RL, appropriate methods for learning multiple solutions have not been fully investigated in previous studies. In this study, we therefore addressed the problem of finding multiple solutions from a single task in offline RL. We propose algorithms that can learn multiple solutions in offline RL, and empirically investigate their performance. Our experimental results show that the proposed algorithm learns multiple qualitatively and quantitatively distinctive solutions in offline RL.
- Abstract(参考訳): オンライン強化学習(RL)の最近の研究は、新しい環境へのわずかな適応の場合のように、一つのタスクから複数の行動を学習する利点を実証している。
このアプローチはオフラインRLでも同様の利点をもたらすことが期待されているが、複数のソリューションを学習するための適切な方法は、これまでの研究では十分に研究されていない。
そこで本研究では,オフラインRLにおける単一タスクから複数の解を求める問題に対処した。
オフラインのRLで複数の解を学習できるアルゴリズムを提案し,その性能を実証的に検討する。
実験の結果,提案アルゴリズムはオフラインRLにおいて,定性的,定量的に複数の解を学習することがわかった。
関連論文リスト
- Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Understanding the Complexity Gains of Single-Task RL with a Curriculum [83.46923851724408]
強化学習 (Reinforcement Learning, RL) の問題は, 十分に形が整った報酬なしでは困難である。
カリキュラムで定義されるマルチタスクRL問題として、シングルタスクRL問題を再構成する理論的枠組みを提供する。
マルチタスクRL問題における各タスクの逐次解法は、元の単一タスク問題の解法よりも計算効率がよいことを示す。
論文 参考訳(メタデータ) (2022-12-24T19:46:47Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - Importance of Empirical Sample Complexity Analysis for Offline
Reinforcement Learning [55.90351453865001]
オフラインデータから学習するサンプルの数に依存しているかどうかを問う。
我々の目的は、オフラインRLのサンプル複雑性の研究が重要であり、既存のオフラインアルゴリズムの有用性を示す指標である点を強調することである。
論文 参考訳(メタデータ) (2021-12-31T18:05:33Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Reinforcement Learning for Combinatorial Optimization: A Survey [12.323976053967066]
最適化問題を解決する多くの伝統的なアルゴリズムは、解決を逐次構築する手工芸品を使用する。
強化学習(Reinforcement Learning, RL)は、エージェントを監督的または自己監督的な方法で訓練することにより、これらの検索を自動化する優れた代替手段を提案する。
論文 参考訳(メタデータ) (2020-03-07T16:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。