論文の概要: Efficient Policy Learning from Surrogate-Loss Classification Reductions
- arxiv url: http://arxiv.org/abs/2002.05153v1
- Date: Wed, 12 Feb 2020 18:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:05:06.315681
- Title: Efficient Policy Learning from Surrogate-Loss Classification Reductions
- Title(参考訳): surrogate-loss分類による効率的な政策学習
- Authors: Andrew Bennett and Nathan Kallus
- Abstract要約: 本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
- 参考スコア(独自算出の注目度): 65.91730154730905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on policy learning from observational data has highlighted the
importance of efficient policy evaluation and has proposed reductions to
weighted (cost-sensitive) classification. But, efficient policy evaluation need
not yield efficient estimation of policy parameters. We consider the estimation
problem given by a weighted surrogate-loss classification reduction of policy
learning with any score function, either direct, inverse-propensity weighted,
or doubly robust. We show that, under a correct specification assumption, the
weighted classification formulation need not be efficient for policy
parameters. We draw a contrast to actual (possibly weighted) binary
classification, where correct specification implies a parametric model, while
for policy learning it only implies a semiparametric model. In light of this,
we instead propose an estimation approach based on generalized method of
moments, which is efficient for the policy parameters. We propose a particular
method based on recent developments on solving moment problems using neural
networks and demonstrate the efficiency and regret benefits of this method
empirically.
- Abstract(参考訳): 観測データからの政策学習に関する最近の研究は、効率的な政策評価の重要性を強調し、重み付き(コスト感受性)分類の削減を提案している。
しかし、効率的な政策評価は、政策パラメータを効率的に見積もる必要はない。
我々は、直接、逆正当性重み付き、あるいは二重頑健なスコア関数を持つ政策学習の重み付きサロゲート-ロス分類による推定問題を考える。
適切な仕様仮定の下では、重み付き分類定式化はポリシーパラメータに対して効率的ではないことを示す。
我々は、正しい仕様はパラメトリックモデルを意味し、ポリシー学習では半パラメトリックモデルのみを意味する実際の(おそらく重み付けされた)バイナリ分類と対比する。
これを踏まえて,ポリシーパラメータに効率的な一般化モーメント法に基づく推定手法を提案する。
本稿では,ニューラルネットワークを用いたモーメント問題の解法に関する最近の研究に基づいて,その効率性と後悔のメリットを実証する手法を提案する。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。