論文の概要: Representations for Stable Off-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.05520v2
- Date: Fri, 2 Oct 2020 20:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 20:47:06.662352
- Title: Representations for Stable Off-Policy Reinforcement Learning
- Title(参考訳): 安定なオフポリティ強化学習のための表現法
- Authors: Dibya Ghosh, Marc G. Bellemare
- Abstract要約: 関数近似による強化学習は不安定であり、また分岐することもある。
本研究では,非政治学習においても,標準的TDアルゴリズムが安定な非自明な状態表現を示す。
我々はこれらの安定表現が勾配降下を用いて学習できることを実証的に示すことで結論付けた。
- 参考スコア(独自算出の注目度): 37.561660796265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with function approximation can be unstable and even
divergent, especially when combined with off-policy learning and Bellman
updates. In deep reinforcement learning, these issues have been dealt with
empirically by adapting and regularizing the representation, in particular with
auxiliary tasks. This suggests that representation learning may provide a means
to guarantee stability. In this paper, we formally show that there are indeed
nontrivial state representations under which the canonical TD algorithm is
stable, even when learning off-policy. We analyze representation learning
schemes that are based on the transition matrix of a policy, such as
proto-value functions, along three axes: approximation error, stability, and
ease of estimation. In the most general case, we show that a Schur basis
provides convergence guarantees, but is difficult to estimate from samples. For
a fixed reward function, we find that an orthogonal basis of the corresponding
Krylov subspace is an even better choice. We conclude by empirically
demonstrating that these stable representations can be learned using stochastic
gradient descent, opening the door to improved techniques for representation
learning with deep networks.
- Abstract(参考訳): 関数近似による強化学習は不安定で、特にオフポリシー学習やベルマン更新と組み合わせると、さらに多様化する可能性がある。
深層強化学習において、これらの問題は、特に補助的なタスクにおいて、表現の適応と規則化によって経験的に扱われてきた。
これは表現学習が安定性を保証する手段となることを示唆する。
本稿では,非政治学習においても,標準的TDアルゴリズムが安定な非自明な状態表現が存在することを正式に示す。
近似誤差,安定性,推定の容易さという3つの軸に沿って,proto-value関数などのポリシーの遷移行列に基づく表現学習スキームを解析した。
最も一般的なケースでは、schur基底は収束保証を提供するが、サンプルから推定することは困難である。
固定報酬関数に対しては、対応するクリロフ部分空間の直交基底がさらによい選択であることが分かる。
我々は,これらの安定表現を確率勾配降下を用いて学習できることを実証的に証明し,深層ネットワークを用いた表現学習技術の改善への扉を開いた。
関連論文リスト
- Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Tractable Uncertainty for Structure Learning [21.46601360284884]
近似後推論のためのフレームワークであるSTructureのTractable Uncertaintyを提案する。
確率回路は構造学習のための拡張表現として利用できる。
論文 参考訳(メタデータ) (2022-04-29T15:54:39Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Inverse Reinforcement Learning in the Continuous Setting with Formal
Guarantees [31.122125783516726]
逆強化学習(IRL)は、観察/既知の専門家の行動を記述する報酬関数を見つけることの問題です。
未知の遷移ダイナミクスを持つ連続状態空間設定のための新しいIRLアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-02-16T03:17:23Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。