論文の概要: Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation
- arxiv url: http://arxiv.org/abs/2403.04453v2
- Date: Thu, 20 Jun 2024 11:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 04:59:27.288067
- Title: Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation
- Title(参考訳): Vlearn: 効率的な状態値関数推定によるオフポリティ学習
- Authors: Fabian Otto, Philipp Becker, Ngo Anh Vien, Gerhard Neumann,
- Abstract要約: 既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 22.129001951441015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing off-policy reinforcement learning algorithms often rely on an explicit state-action-value function representation, which can be problematic in high-dimensional action spaces due to the curse of dimensionality. This reliance results in data inefficiency as maintaining a state-action-value function in such spaces is challenging. We present an efficient approach that utilizes only a state-value function as the critic for off-policy deep reinforcement learning. This approach, which we refer to as Vlearn, effectively circumvents the limitations of existing methods by eliminating the necessity for an explicit state-action-value function. To this end, we introduce a novel importance sampling loss for learning deep value functions from off-policy data. While this is common for linear methods, it has not been combined with deep value function networks. This transfer to deep methods is not straightforward and requires novel design choices such as robust policy updates, twin value function networks to avoid an optimization bias, and importance weight clipping. We also present a novel analysis of the variance of our estimate compared to commonly used importance sampling estimators such as V-trace. Our approach improves sample complexity as well as final performance and ensures consistent and robust performance across various benchmark tasks. Eliminating the state-action-value function in Vlearn facilitates a streamlined learning process, enabling more effective exploration and exploitation in complex environments.
- Abstract(参考訳): 既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存しており、これは次元の呪いによって高次元の行動空間で問題となることがある。
このような空間における状態-作用-値関数を維持することは困難である。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
Vlearnと呼ばれるこのアプローチは、明示的な状態-作用-値関数の必要性を排除し、既存の手法の限界を効果的に回避する。
そこで本稿では,非政治データから付加価値関数を学習する上で,新たな重要サンプリング損失を導入する。
これは線形手法では一般的であるが、深い値関数ネットワークと組み合わせてはいない。
このディープメソッドへの転送は簡単ではなく、ロバストなポリシー更新、最適化バイアスを避けるためにツインバリュー関数ネットワーク、重み付けの重要性といった新しい設計選択を必要とする。
また,V-トラスなどの重要度サンプリング推定器と比較して,推定値のばらつきについて新しい分析を行った。
このアプローチは、サンプルの複雑さと最終的なパフォーマンスを改善し、様々なベンチマークタスクに対して一貫性と堅牢性を保証する。
Vlearnにおける状態-作用-値関数の排除は、学習プロセスの合理化を促進し、複雑な環境でより効果的な探索と利用を可能にする。
関連論文リスト
- Online Reinforcement Learning-Based Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks [5.115170525117103]
リアルタイム戦略タスクの効果的な評価には、動的で予測不可能な環境に対処するための適応的なメカニズムが必要である。
本研究では,戦場状況変化に対するリアルタイム応答性評価機能の改善手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T14:36:33Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。