Fugu-MT 論文翻訳(概要): Representations for Stable Off-Policy Reinforcement Learning

論文の概要: Representations for Stable Off-Policy Reinforcement Learning

arxiv url: http://arxiv.org/abs/2007.05520v2
Date: Fri, 2 Oct 2020 20:58:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 20:47:06.662352
Title: Representations for Stable Off-Policy Reinforcement Learning
Title（参考訳）: 安定なオフポリティ強化学習のための表現法
Authors: Dibya Ghosh, Marc G. Bellemare
Abstract要約: 関数近似による強化学習は不安定であり、また分岐することもある。本研究では,非政治学習においても,標準的TDアルゴリズムが安定な非自明な状態表現を示す。我々はこれらの安定表現が勾配降下を用いて学習できることを実証的に示すことで結論付けた。
参考スコア（独自算出の注目度）: 37.561660796265
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning with function approximation can be unstable and even divergent, especially when combined with off-policy learning and Bellman updates. In deep reinforcement learning, these issues have been dealt with empirically by adapting and regularizing the representation, in particular with auxiliary tasks. This suggests that representation learning may provide a means to guarantee stability. In this paper, we formally show that there are indeed nontrivial state representations under which the canonical TD algorithm is stable, even when learning off-policy. We analyze representation learning schemes that are based on the transition matrix of a policy, such as proto-value functions, along three axes: approximation error, stability, and ease of estimation. In the most general case, we show that a Schur basis provides convergence guarantees, but is difficult to estimate from samples. For a fixed reward function, we find that an orthogonal basis of the corresponding Krylov subspace is an even better choice. We conclude by empirically demonstrating that these stable representations can be learned using stochastic gradient descent, opening the door to improved techniques for representation learning with deep networks.
Abstract（参考訳）: 関数近似による強化学習は不安定で、特にオフポリシー学習やベルマン更新と組み合わせると、さらに多様化する可能性がある。深層強化学習において、これらの問題は、特に補助的なタスクにおいて、表現の適応と規則化によって経験的に扱われてきた。これは表現学習が安定性を保証する手段となることを示唆する。本稿では,非政治学習においても,標準的TDアルゴリズムが安定な非自明な状態表現が存在することを正式に示す。近似誤差,安定性,推定の容易さという3つの軸に沿って,proto-value関数などのポリシーの遷移行列に基づく表現学習スキームを解析した。最も一般的なケースでは、schur基底は収束保証を提供するが、サンプルから推定することは困難である。固定報酬関数に対しては、対応するクリロフ部分空間の直交基底がさらによい選択であることが分かる。我々は,これらの安定表現を確率勾配降下を用いて学習できることを実証的に証明し,深層ネットワークを用いた表現学習技術の改善への扉を開いた。

関連論文リスト

Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Stable Offline Value Function Learning with Bisimulation-based Representations [13.013000247825248]
強化学習では、固定目標ポリシーに従って行動を行う際に、各状態から期待される割引リターンを推定するために、オフライン値関数学習を用いる。状態-作用表現を明示的に形成することにより、値関数学習を安定させることが重要である。我々は、オフラインポリシー評価(KROPE)のためのカーネル表現と呼ばれるシミュレーションベースのアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-10-02T15:13:25Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Tractable Uncertainty for Structure Learning [21.46601360284884]
近似後推論のためのフレームワークであるSTructureのTractable Uncertaintyを提案する。確率回路は構造学習のための拡張表現として利用できる。
論文参考訳（メタデータ） (2022-04-29T15:54:39Z)
Near-optimal Offline Reinforcement Learning with Linear Representation: Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文参考訳（メタデータ） (2022-03-11T09:00:12Z)
Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文参考訳（メタデータ） (2021-10-27T00:32:07Z)
A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-08-22T16:00:45Z)
A Distributional Analysis of Sampling-Based Reinforcement Learning Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文参考訳（メタデータ） (2020-03-27T05:13:29Z)
Scalable Uncertainty for Computer Vision with Functional Variational Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-06T19:09:42Z)
Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文参考訳（メタデータ） (2020-03-05T19:56:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。