論文の概要: General Policy Evaluation and Improvement by Learning to Identify Few
But Crucial States
- arxiv url: http://arxiv.org/abs/2207.01566v1
- Date: Mon, 4 Jul 2022 16:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 17:29:09.774189
- Title: General Policy Evaluation and Improvement by Learning to Identify Few
But Crucial States
- Title(参考訳): 少数ながら重要な国家を識別する学習による一般政策評価と改善
- Authors: Francesco Faccio, Aditya Ramesh, Vincent Herrmann, Jean Harb, J\"urgen
Schmidhuber
- Abstract要約: 政策評価と改善の学習は強化学習の中核的な問題である。
最近検討された競合の代替手段は、多くのポリシーで単一の値関数を学ぶことである。
NNポリシを評価するために訓練された値関数も,ポリシアーキテクチャの変更に不変であることを示す。
- 参考スコア(独自算出の注目度): 12.059140532198064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to evaluate and improve policies is a core problem of Reinforcement
Learning (RL). Traditional RL algorithms learn a value function defined for a
single policy. A recently explored competitive alternative is to learn a single
value function for many policies. Here we combine the actor-critic architecture
of Parameter-Based Value Functions and the policy embedding of Policy
Evaluation Networks to learn a single value function for evaluating (and thus
helping to improve) any policy represented by a deep neural network (NN). The
method yields competitive experimental results. In continuous control problems
with infinitely many states, our value function minimizes its prediction error
by simultaneously learning a small set of `probing states' and a mapping from
actions produced in probing states to the policy's return. The method extracts
crucial abstract knowledge about the environment in form of very few states
sufficient to fully specify the behavior of many policies. A policy improves
solely by changing actions in probing states, following the gradient of the
value function's predictions. Surprisingly, it is possible to clone the
behavior of a near-optimal policy in Swimmer-v3 and Hopper-v3 environments only
by knowing how to act in 3 and 5 such learned states, respectively. Remarkably,
our value function trained to evaluate NN policies is also invariant to changes
of the policy architecture: we show that it allows for zero-shot learning of
linear policies competitive with the best policy seen during training. Our code
is public.
- Abstract(参考訳): 政策評価と改善の学習は強化学習(RL)の中核的な問題である。
従来のRLアルゴリズムは、1つのポリシーで定義された値関数を学ぶ。
最近検討された競合代替手段は、多くのポリシーで単一の値関数を学ぶことである。
ここでは,パラメータベース価値関数のアクタ批判的アーキテクチャとポリシ評価ネットワークのポリシ埋め込みを組み合わせて,ディープニューラルネットワーク(NN)で表されるポリシを評価する(そして改善を支援する)ための単一値関数を学習する。
この方法は競争実験の結果をもたらす。
無限に多くの状態を持つ連続制御問題において、我々の値関数はその予測誤差を最小にし、少数の「探索状態」を学習し、探索状態から政策の帰結へと作用をマッピングする。
この方法は、環境に関する重要な抽象的な知識を、多くのポリシーの振る舞いを完全に特定するのに十分な状態の形で抽出する。
政策は、値関数の予測の勾配に従って、探索状態における行動を変更することによってのみ改善される。
驚くべきことに、スイマーv3およびホッパーv3環境における最適に近いポリシーの挙動を、それぞれ3および5の学習状態においてどのように振る舞うかを知るだけでクローンすることができる。
注目すべきことに、NNポリシーを評価するために訓練された価値関数は、ポリシーアーキテクチャの変更にも不変である。
私たちのコードは公開されています。
関連論文リスト
- Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Parameter-Based Value Functions [7.519872646378835]
オフポリティックアクター批判強化学習(RL)アルゴリズムは、1つのターゲットポリシーの価値関数を学習する。
私たちは値関数と呼ばれるクラスを紹介します。
the-based value function (PBVF) は、入力がポリシーパラメータを含む関数である。
学習したPBVFが、トレーニング中に見られるあらゆるポリシーを上回るような、新しいポリシーをゼロショットで学習できることを示します。
論文 参考訳(メタデータ) (2020-06-16T15:04:49Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。