論文の概要: Highway Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.18289v1
- Date: Tue, 28 May 2024 15:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:59:58.614731
- Title: Highway Reinforcement Learning
- Title(参考訳): 高速道路の強化学習
- Authors: Yuhui Wang, Miroslav Strupl, Francesco Faccio, Qingyuan Wu, Haozhe Liu, Michał Grudzień, Xiaoyang Tan, Jürgen Schmidhuber,
- Abstract要約: 一連の政策によって収集された多段階のオフ政治データからの学習は、強化学習(RL)の中核的な問題である
我々は、過小評価問題を避け、最適なVFに収束する新しいISフリーマルチステップオフ政治手法を提案する。
これは、$n$が非常に大きい場合でも安全に学習する、新しい非政治的なRLアルゴリズムのファミリーを生み出します。
- 参考スコア(独自算出の注目度): 35.980387097763035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from multi-step off-policy data collected by a set of policies is a core problem of reinforcement learning (RL). Approaches based on importance sampling (IS) often suffer from large variances due to products of IS ratios. Typical IS-free methods, such as $n$-step Q-learning, look ahead for $n$ time steps along the trajectory of actions (where $n$ is called the lookahead depth) and utilize off-policy data directly without any additional adjustment. They work well for proper choices of $n$. We show, however, that such IS-free methods underestimate the optimal value function (VF), especially for large $n$, restricting their capacity to efficiently utilize information from distant future time steps. To overcome this problem, we introduce a novel, IS-free, multi-step off-policy method that avoids the underestimation issue and converges to the optimal VF. At its core lies a simple but non-trivial \emph{highway gate}, which controls the information flow from the distant future by comparing it to a threshold. The highway gate guarantees convergence to the optimal VF for arbitrary $n$ and arbitrary behavioral policies. It gives rise to a novel family of off-policy RL algorithms that safely learn even when $n$ is very large, facilitating rapid credit assignment from the far future to the past. On tasks with greatly delayed rewards, including video games where the reward is given only at the end of the game, our new methods outperform many existing multi-step off-policy algorithms.
- Abstract(参考訳): 政策によって収集された多段階のオフ政治データから学ぶことは、強化学習(RL)の中核的な問題である。
重要サンプリング(IS)に基づくアプローチは、IS比の産物による大きなばらつきに悩まされることが多い。
通常のISフリーのメソッド、例えば$n$-step Q-learningは、アクションの軌跡に沿って$n$タイムステップ($n$をルックアヘッド深さと呼ぶ)を先取りし、追加の調整なしに外部のデータを直接利用する。
それらは$n$の適切な選択のためにうまく機能する。
しかし,このようなISフリーな手法は,特に大額の$n$に対して最適値関数 (VF) を過小評価し,その能力を制限することで,将来的な情報処理の効率化を図っている。
この問題を克服するために、過小評価問題を避け、最適なVFに収束する、ISフリーで多段階のオフ政治手法を導入する。
その中核には単純だが非自明な \emph{highway gate} があり、これは遠未来からの情報の流れをしきい値と比較することによって制御する。
ハイウェイゲートは任意の$n$および任意の行動ポリシーに対して最適なVFへの収束を保証する。
これは、$n$が非常に大きい場合でも安全に学習し、遠い未来から過去の迅速なクレジット割り当てを促進する、新しい非政治的RLアルゴリズムのファミリーを生み出します。
ゲーム終了時にのみ報酬が与えられるビデオゲームなど、非常に遅延した報酬を伴うタスクにおいて、我々の新しい手法は、既存のマルチステップオフポリシーアルゴリズムよりも優れています。
関連論文リスト
- Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Improved Regret Bound and Experience Replay in Regularized Policy
Iteration [22.621710838468097]
無限ホライゾンマルコフ決定過程(mdps)における学習アルゴリズムを関数近似を用いて検討する。
まず、ほぼ同一の仮定の下で、Politexアルゴリズムの後悔解析を$O(T3/4)$から$O(sqrtT)$にシャープできることを示す。
その結果、計算効率の良いアルゴリズムに対して、最初の高い確率の$o(sqrtt)$ regretバウンドが得られる。
論文 参考訳(メタデータ) (2021-02-25T00:55:07Z) - Greedy Multi-step Off-Policy Reinforcement Learning [14.720255341733413]
そこで本研究では,ブートストラップ値の最大値を異なるステップでグリード的に取得するブートストラップ手法を提案する。
実験の結果,提案手法は信頼性が高く,実装が容易で,最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-23T14:32:20Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。