論文の概要: Parameter-Based Value Functions
- arxiv url: http://arxiv.org/abs/2006.09226v4
- Date: Fri, 13 Aug 2021 14:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:43:46.273055
- Title: Parameter-Based Value Functions
- Title(参考訳): パラメータに基づく値関数
- Authors: Francesco Faccio, Louis Kirsch and J\"urgen Schmidhuber
- Abstract要約: オフポリティックアクター批判強化学習(RL)アルゴリズムは、1つのターゲットポリシーの価値関数を学習する。
私たちは値関数と呼ばれるクラスを紹介します。
the-based value function (PBVF) は、入力がポリシーパラメータを含む関数である。
学習したPBVFが、トレーニング中に見られるあらゆるポリシーを上回るような、新しいポリシーをゼロショットで学習できることを示します。
- 参考スコア(独自算出の注目度): 7.519872646378835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional off-policy actor-critic Reinforcement Learning (RL) algorithms
learn value functions of a single target policy. However, when value functions
are updated to track the learned policy, they forget potentially useful
information about old policies. We introduce a class of value functions called
Parameter-Based Value Functions (PBVFs) whose inputs include the policy
parameters. They can generalize across different policies. PBVFs can evaluate
the performance of any policy given a state, a state-action pair, or a
distribution over the RL agent's initial states. First we show how PBVFs yield
novel off-policy policy gradient theorems. Then we derive off-policy
actor-critic algorithms based on PBVFs trained by Monte Carlo or Temporal
Difference methods. We show how learned PBVFs can zero-shot learn new policies
that outperform any policy seen during training. Finally our algorithms are
evaluated on a selection of discrete and continuous control tasks using shallow
policies and deep neural networks. Their performance is comparable to
state-of-the-art methods.
- Abstract(参考訳): 従来の非政治的アクター批判強化学習(RL)アルゴリズムは、単一のターゲットポリシーの価値関数を学ぶ。
しかし、値関数が学習したポリシーを追跡するために更新されると、古いポリシーに関する潜在的に有用な情報を忘れてしまう。
我々は、入力にポリシーパラメータを含むパラメータベース値関数(pbvfs)と呼ばれる値関数のクラスを導入する。
異なる政策にまたがって一般化することができる。
PBVFは、状態、状態-作用対、RLエージェントの初期状態上の分布が与えられた任意のポリシーのパフォーマンスを評価することができる。
まず、PBVFがいかにして政治外の政策勾配定理をもたらすかを示す。
次にモンテカルロ法または時間差法で訓練されたpbvfsに基づくオフポリシーアクタ-クリティックアルゴリズムを導出する。
学習したpbvfが、トレーニング中に見られるポリシーよりも優れた新しいポリシーをゼロショットで学べることを示す。
最後に,浅層ポリシと深層ニューラルネットワークを用いて,離散制御タスクと連続制御タスクを選択することでアルゴリズムを評価する。
その性能は最先端の手法に匹敵する。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - General Policy Evaluation and Improvement by Learning to Identify Few
But Crucial States [12.059140532198064]
政策評価と改善の学習は強化学習の中核的な問題である。
最近検討された競合の代替手段は、多くのポリシーで単一の値関数を学ぶことである。
NNポリシを評価するために訓練された値関数も,ポリシアーキテクチャの変更に不変であることを示す。
論文 参考訳(メタデータ) (2022-07-04T16:34:53Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - What About Inputing Policy in Value Function: Policy Representation and
Policy-extended Value Function Approximator [39.287998861631]
強化学習(RL)における政策拡張価値関数近似器(PeVFA)について検討する。
我々は,PeVFAが提供する一般化値の推定値が,初期近似誤差を連続ポリシーの真値に低下させる可能性があることを示す。
本稿ではRLポリシーの表現学習フレームワークを提案し、ポリシーネットワークパラメータや状態-作用ペアから効果的なポリシー埋め込みを学習するためのいくつかのアプローチを提供する。
論文 参考訳(メタデータ) (2020-10-19T14:09:18Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。