論文の概要: Policy Evaluation Networks
- arxiv url: http://arxiv.org/abs/2002.11833v1
- Date: Wed, 26 Feb 2020 23:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 13:49:20.301396
- Title: Policy Evaluation Networks
- Title(参考訳): 政策評価ネットワーク
- Authors: Jean Harb, Tom Schaul, Doina Precup and Pierre-Luc Bacon
- Abstract要約: 我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
- 参考スコア(独自算出の注目度): 50.53250641051648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many reinforcement learning algorithms use value functions to guide the
search for better policies. These methods estimate the value of a single policy
while generalizing across many states. The core idea of this paper is to flip
this convention and estimate the value of many policies, for a single set of
states. This approach opens up the possibility of performing direct gradient
ascent in policy space without seeing any new data. The main challenge for this
approach is finding a way to represent complex policies that facilitates
learning and generalization. To address this problem, we introduce a scalable,
differentiable fingerprinting mechanism that retains essential policy
information in a concise embedding. Our empirical results demonstrate that
combining these three elements (learned Policy Evaluation Network, policy
fingerprints, gradient ascent) can produce policies that outperform those that
generated the training data, in zero-shot manner.
- Abstract(参考訳): 多くの強化学習アルゴリズムは、より良いポリシーを探すために値関数を使用する。
これらの方法は、多くの状態にわたって一般化しながら単一のポリシーの価値を推定する。
本稿の中核となる考え方は、この規約を覆し、単一の状態に対して多くのポリシーの価値を見積もることである。
このアプローチは、新しいデータを見ることなく、ポリシー空間で直接勾配上昇を行う可能性を開く。
このアプローチの主な課題は、学習と一般化を促進する複雑なポリシーを表現する方法を見つけることである。
そこで本稿では,本質的なポリシー情報を保持するスケーラブルで差別化可能なフィンガープリント機構を提案する。
その結果、これらの3つの要素(学習ポリシー評価ネットワーク、ポリシー指紋、勾配上昇)を組み合わせることで、トレーニングデータを生成する要素をゼロショットで上回るポリシーを生成できることが実証された。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Towards A Unified Policy Abstraction Theory and Representation Learning
Approach in Markov Decision Processes [39.94472154078338]
本稿では,異なるレベルでの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。
そして、それらを3つの政策指標に一般化し、政策の距離(すなわち類似性)を定量化する。
実証実験では,政策の差異を識別し,政策の一般化を伝達する上で,提案した政策指標と表現の有効性について検討する。
論文 参考訳(メタデータ) (2022-09-16T03:41:50Z) - General Policy Evaluation and Improvement by Learning to Identify Few
But Crucial States [12.059140532198064]
政策評価と改善の学習は強化学習の中核的な問題である。
最近検討された競合の代替手段は、多くのポリシーで単一の値関数を学ぶことである。
NNポリシを評価するために訓練された値関数も,ポリシアーキテクチャの変更に不変であることを示す。
論文 参考訳(メタデータ) (2022-07-04T16:34:53Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。