論文の概要: Representations for Stable Off-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.05520v2
- Date: Fri, 2 Oct 2020 20:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 20:47:06.662352
- Title: Representations for Stable Off-Policy Reinforcement Learning
- Title(参考訳): 安定なオフポリティ強化学習のための表現法
- Authors: Dibya Ghosh, Marc G. Bellemare
- Abstract要約: 関数近似による強化学習は不安定であり、また分岐することもある。
本研究では,非政治学習においても,標準的TDアルゴリズムが安定な非自明な状態表現を示す。
我々はこれらの安定表現が勾配降下を用いて学習できることを実証的に示すことで結論付けた。
- 参考スコア(独自算出の注目度): 37.561660796265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with function approximation can be unstable and even
divergent, especially when combined with off-policy learning and Bellman
updates. In deep reinforcement learning, these issues have been dealt with
empirically by adapting and regularizing the representation, in particular with
auxiliary tasks. This suggests that representation learning may provide a means
to guarantee stability. In this paper, we formally show that there are indeed
nontrivial state representations under which the canonical TD algorithm is
stable, even when learning off-policy. We analyze representation learning
schemes that are based on the transition matrix of a policy, such as
proto-value functions, along three axes: approximation error, stability, and
ease of estimation. In the most general case, we show that a Schur basis
provides convergence guarantees, but is difficult to estimate from samples. For
a fixed reward function, we find that an orthogonal basis of the corresponding
Krylov subspace is an even better choice. We conclude by empirically
demonstrating that these stable representations can be learned using stochastic
gradient descent, opening the door to improved techniques for representation
learning with deep networks.
- Abstract(参考訳): 関数近似による強化学習は不安定で、特にオフポリシー学習やベルマン更新と組み合わせると、さらに多様化する可能性がある。
深層強化学習において、これらの問題は、特に補助的なタスクにおいて、表現の適応と規則化によって経験的に扱われてきた。
これは表現学習が安定性を保証する手段となることを示唆する。
本稿では,非政治学習においても,標準的TDアルゴリズムが安定な非自明な状態表現が存在することを正式に示す。
近似誤差,安定性,推定の容易さという3つの軸に沿って,proto-value関数などのポリシーの遷移行列に基づく表現学習スキームを解析した。
最も一般的なケースでは、schur基底は収束保証を提供するが、サンプルから推定することは困難である。
固定報酬関数に対しては、対応するクリロフ部分空間の直交基底がさらによい選択であることが分かる。
我々は,これらの安定表現を確率勾配降下を用いて学習できることを実証的に証明し,深層ネットワークを用いた表現学習技術の改善への扉を開いた。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Stable Offline Value Function Learning with Bisimulation-based Representations [13.013000247825248]
強化学習では、固定目標ポリシーに従って行動を行う際に、各状態から期待される割引リターンを推定するために、オフライン値関数学習を用いる。
状態-作用表現を明示的に形成することにより、値関数学習を安定させることが重要である。
我々は、オフラインポリシー評価(KROPE)のためのカーネル表現と呼ばれるシミュレーションベースのアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-10-02T15:13:25Z) - Tractable Uncertainty for Structure Learning [21.46601360284884]
近似後推論のためのフレームワークであるSTructureのTractable Uncertaintyを提案する。
確率回路は構造学習のための拡張表現として利用できる。
論文 参考訳(メタデータ) (2022-04-29T15:54:39Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。