論文の概要: Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation
- arxiv url: http://arxiv.org/abs/2403.04453v2
- Date: Thu, 20 Jun 2024 11:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 04:59:27.288067
- Title: Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation
- Title(参考訳): Vlearn: 効率的な状態値関数推定によるオフポリティ学習
- Authors: Fabian Otto, Philipp Becker, Ngo Anh Vien, Gerhard Neumann,
- Abstract要約: 既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 22.129001951441015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing off-policy reinforcement learning algorithms often rely on an explicit state-action-value function representation, which can be problematic in high-dimensional action spaces due to the curse of dimensionality. This reliance results in data inefficiency as maintaining a state-action-value function in such spaces is challenging. We present an efficient approach that utilizes only a state-value function as the critic for off-policy deep reinforcement learning. This approach, which we refer to as Vlearn, effectively circumvents the limitations of existing methods by eliminating the necessity for an explicit state-action-value function. To this end, we introduce a novel importance sampling loss for learning deep value functions from off-policy data. While this is common for linear methods, it has not been combined with deep value function networks. This transfer to deep methods is not straightforward and requires novel design choices such as robust policy updates, twin value function networks to avoid an optimization bias, and importance weight clipping. We also present a novel analysis of the variance of our estimate compared to commonly used importance sampling estimators such as V-trace. Our approach improves sample complexity as well as final performance and ensures consistent and robust performance across various benchmark tasks. Eliminating the state-action-value function in Vlearn facilitates a streamlined learning process, enabling more effective exploration and exploitation in complex environments.
- Abstract(参考訳): 既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存しており、これは次元の呪いによって高次元の行動空間で問題となることがある。
このような空間における状態-作用-値関数を維持することは困難である。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
Vlearnと呼ばれるこのアプローチは、明示的な状態-作用-値関数の必要性を排除し、既存の手法の限界を効果的に回避する。
そこで本稿では,非政治データから付加価値関数を学習する上で,新たな重要サンプリング損失を導入する。
これは線形手法では一般的であるが、深い値関数ネットワークと組み合わせてはいない。
このディープメソッドへの転送は簡単ではなく、ロバストなポリシー更新、最適化バイアスを避けるためにツインバリュー関数ネットワーク、重み付けの重要性といった新しい設計選択を必要とする。
また,V-トラスなどの重要度サンプリング推定器と比較して,推定値のばらつきについて新しい分析を行った。
このアプローチは、サンプルの複雑さと最終的なパフォーマンスを改善し、様々なベンチマークタスクに対して一貫性と堅牢性を保証する。
Vlearnにおける状態-作用-値関数の排除は、学習プロセスの合理化を促進し、複雑な環境でより効果的な探索と利用を可能にする。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Accelerating Policy Gradient by Estimating Value Function from Prior
Computation in Deep Reinforcement Learning [16.999444076456268]
そこで本研究では,事前計算を用いて値関数を推定し,オンライン政策勾配法におけるサンプル効率を向上する方法について検討する。
特に,対象タスクに対する新しい値関数を事前の値推定と組み合わせて学習する。
結果の値関数は、ポリシー勾配法におけるベースラインとして使用される。
論文 参考訳(メタデータ) (2023-02-02T20:23:22Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - On the Outsized Importance of Learning Rates in Local Update Methods [2.094022863940315]
我々は,多くのフェデレーション学習とメタ学習アルゴリズムを一般化する,局所的な更新手法と呼ばれるアルゴリズム群について検討する。
2次目的に対して、局所更新法は、正に特徴付けられる代理損失関数の勾配降下を実行することを証明した。
クライアント学習率の選択は、サロゲート損失の条件数と、サロゲート最小化関数と真の損失関数との距離を制御していることを示す。
論文 参考訳(メタデータ) (2020-07-02T04:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。