論文の概要: On the Role of Discount Factor in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.03383v1
- Date: Tue, 7 Jun 2022 15:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 15:36:22.056220
- Title: On the Role of Discount Factor in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における割引要因の役割について
- Authors: Hao Hu, Yiqin Yang, Qianchuan Zhao, Chongjie Zhang
- Abstract要約: 割引係数である$gamma$は、オンラインRLサンプル効率と推定精度を改善する上で重要な役割を果たす。
本稿では、理論解析によるオフラインRLにおける$gamma$の2つの異なる効果について検討する。
その結果, オフラインRLアルゴリズムの性能において, 割引係数が重要な役割を担っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 25.647624787936028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) enables effective learning from
previously collected data without exploration, which shows great promise in
real-world applications when exploration is expensive or even infeasible. The
discount factor, $\gamma$, plays a vital role in improving online RL sample
efficiency and estimation accuracy, but the role of the discount factor in
offline RL is not well explored. This paper examines two distinct effects of
$\gamma$ in offline RL with theoretical analysis, namely the regularization
effect and the pessimism effect. On the one hand, $\gamma$ is a regulator to
trade-off optimality with sample efficiency upon existing offline techniques.
On the other hand, lower guidance $\gamma$ can also be seen as a way of
pessimism where we optimize the policy's performance in the worst possible
models. We empirically verify the above theoretical observation with tabular
MDPs and standard D4RL tasks. The results show that the discount factor plays
an essential role in the performance of offline RL algorithms, both under small
data regimes upon existing offline methods and in large data regimes without
other conservatisms.
- Abstract(参考訳): オフライン強化学習(RL)は、以前に収集したデータから探索なしで効果的な学習を可能にする。
割引係数である$\gamma$は、オンラインRLサンプル効率と推定精度を改善する上で重要な役割を果たすが、オフラインRLにおける割引係数の役割はよく調べられていない。
本稿では,オフラインRLにおける$\gamma$の2つの異なる効果,すなわち正規化効果と悲観効果について検討する。
一方、$\gamma$は、既存のオフラインテクニックによるサンプル効率による最適性をトレードオフするレギュレータである。
一方、低いガイダンス$\gamma$は、最悪のモデルでポリシーのパフォーマンスを最適化する悲観的な方法であると見なすこともできる。
上述の理論的観察を表状MDPと標準D4RLタスクで実証的に検証する。
その結果、既存のオフラインメソッド上の小さなデータレジームと、他の保守性のない大規模データレジームの両方において、オフラインrlアルゴリズムの性能において、ディスカウント係数が重要な役割を担っていることが示された。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T14:37:42Z) - CROP: Conservative Reward for Model-based Offline Policy Optimization [15.121328040092264]
本稿では、モデルベースオフラインポリシー最適化(CROP)のための新しいモデルベースオフラインRLアルゴリズム、保守的リワードを提案する。
保守的な報奨推定を実現するため、CROPは、ランダムな動作の推定誤差と報酬を同時に最小化する。
特にCROPは、オフラインRLとオンラインRLの革新的な接続を確立し、オンラインRL技術を採用することでオフラインRLの問題に取り組むことができることを強調している。
論文 参考訳(メタデータ) (2023-10-26T08:45:23Z) - The Provable Benefits of Unsupervised Data Sharing for Offline
Reinforcement Learning [25.647624787936028]
オフライン強化学習に報酬のないデータを利用する新しいPDS(Provable Data Sharing Algorithm)を提案する。
PDSは、報酬のないデータを用いたオフラインRLアルゴリズムの性能を大幅に改善する。
論文 参考訳(メタデータ) (2023-02-27T03:35:02Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。