論文の概要: Approximate discounting-free policy evaluation from transient and
recurrent states
- arxiv url: http://arxiv.org/abs/2204.04324v1
- Date: Fri, 8 Apr 2022 23:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 09:53:13.983071
- Title: Approximate discounting-free policy evaluation from transient and
recurrent states
- Title(参考訳): 過渡および反復状態からの近似割引フリー政策評価
- Authors: Vektor Dewanto, Marcus Gallagher
- Abstract要約: 本稿では,過渡的および反復的状態からのバイアス(特に相対値)を近似するシステムを提案する。
モデルレス強化学習に必要なサンプリングによって近似できる最小化表現を導出する。
- 参考スコア(独自算出の注目度): 4.9444321684311925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to distinguish policies that prescribe good from bad actions in
transient states, we need to evaluate the so-called bias of a policy from
transient states. However, we observe that most (if not all) works in
approximate discounting-free policy evaluation thus far are developed for
estimating the bias solely from recurrent states. We therefore propose a system
of approximators for the bias (specifically, its relative value) from transient
and recurrent states. Its key ingredient is a seminorm LSTD (least-squares
temporal difference), for which we derive its minimizer expression that enables
approximation by sampling required in model-free reinforcement learning. This
seminorm LSTD also facilitates the formulation of a general unifying procedure
for LSTD-based policy value approximators. Experimental results validate the
effectiveness of our proposed method.
- Abstract(参考訳): 過渡状態の悪い行動と善悪を規定する政策を区別するためには、政策のいわゆる偏見を過渡状態から評価する必要がある。
しかし, 現状の政策評価において, ほとんど(すべてではないにせよ)は, 再帰状態のみからバイアスを推定するために開発されたものである。
そこで本研究では,過渡的および反復的状態からのバイアス(特に相対値)を近似するシステムを提案する。
その鍵となる要素は半ノルム LSTD (Last-squares temporal difference) であり、モデルレス強化学習に必要なサンプリングによる近似を可能にする最小値式を導出する。
このセミノルム LSTD は、LSTD ベースのポリシー値近似器の一般的な統一手順の定式化を容易にする。
提案手法の有効性を実験的に検証した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Truly Deterministic Policy Optimization [3.07015565161719]
本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。
状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T18:49:33Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。