論文の概要: On Instrumental Variable Regression for Deep Offline Policy Evaluation
- arxiv url: http://arxiv.org/abs/2105.10148v1
- Date: Fri, 21 May 2021 06:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 10:40:43.241884
- Title: On Instrumental Variable Regression for Deep Offline Policy Evaluation
- Title(参考訳): 深部オフライン政策評価のためのインストゥルメンタル変数回帰について
- Authors: Yutian Chen, Liyuan Xu, Caglar Gulcehre, Tom Le Paine, Arthur Gretton,
Nando de Freitas, Arnaud Doucet
- Abstract要約: 平均2乗ベルマン誤差を最小化することで状態-作用値(Q-関数)を推定する一般的な強化学習戦略が,共起を伴う回帰問題を引き起こすことを示す。
我々は、Deep Q-NetworksとFitted Q EvaluationのターゲットQ-ネットワークの修正が、この欠点を克服する方法を提供する理由を説明します。
本稿では、オフライン政策評価の文脈において、最近のIV手法を幅広く分析し、比較する。
- 参考スコア(独自算出の注目度): 37.05492059049681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that the popular reinforcement learning (RL) strategy of estimating
the state-action value (Q-function) by minimizing the mean squared Bellman
error leads to a regression problem with confounding, the inputs and output
noise being correlated. Hence, direct minimization of the Bellman error can
result in significantly biased Q-function estimates. We explain why fixing the
target Q-network in Deep Q-Networks and Fitted Q Evaluation provides a way of
overcoming this confounding, thus shedding new light on this popular but not
well understood trick in the deep RL literature. An alternative approach to
address confounding is to leverage techniques developed in the causality
literature, notably instrumental variables (IV). We bring together here the
literature on IV and RL by investigating whether IV approaches can lead to
improved Q-function estimates. This paper analyzes and compares a wide range of
recent IV methods in the context of offline policy evaluation (OPE), where the
goal is to estimate the value of a policy using logged data only. By applying
different IV techniques to OPE, we are not only able to recover previously
proposed OPE methods such as model-based techniques but also to obtain
competitive new techniques. We find empirically that state-of-the-art OPE
methods are closely matched in performance by some IV methods such as AGMM,
which were not developed for OPE. We open-source all our code and datasets at
https://github.com/liyuan9988/IVOPEwithACME.
- Abstract(参考訳): 平均2乗ベルマン誤差を最小化することで状態-作用値(Q-関数)を推定する一般的な強化学習(RL)戦略が,共起や入力,出力ノイズの相関による回帰問題につながることを示す。
したがって、ベルマン誤差の直接最小化はQ-関数の推定を著しくバイアスする。
我々は、Deep Q-Networks と Fitted Q Evaluation のターゲット Q-network の修正が、この欠点を克服する方法を提供する理由を説明している。
結合に対処する別のアプローチは因果関係文学、特にインストゥルメンタル変数(iv)で開発された技術を活用することである。
ここでは、IV と RL に関する文献をまとめ、IV のアプローチがQ-関数推定の改善につながるかどうかを考察する。
本稿では、ログデータのみを用いてポリシーの価値を推定することを目的として、オフラインポリシー評価(OPE)の文脈において、最近のIV手法を幅広く分析、比較する。
異なるIV手法をOPEに適用することにより,従来提案されていたモデルベース手法などのOPE手法を復元できるだけでなく,競争力のある新しい手法も得られる。
我々は,最新のOPE手法が,OPE向けに開発されていないAGMMなどのIV手法と密に一致していることを実証的に見出した。
私たちは、すべてのコードとデータセットをhttps://github.com/liyuan9988/IVOPEwithACMEでオープンソースにしています。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Learning Decision Policies with Instrumental Variables through Double Machine Learning [16.842233444365764]
データリッチな設定における意思決定ポリシーの学習における一般的な問題は、オフラインデータセットにおける急激な相関である。
2段階IV回帰のバイアスを低減する非線形IV回帰法であるDML-IVを提案する。
IV回帰ベンチマークでは、最先端のIV回帰法よりも優れており、楽器の存在下で高い性能のポリシーを学ぶ。
論文 参考訳(メタデータ) (2024-05-14T10:55:04Z) - Regularized DeepIV with Model Selection [72.17508967124081]
正規化DeepIV(RDIV)回帰は最小ノルムIV解に収束することができる。
我々の手法は現在の最先端の収束率と一致している。
論文 参考訳(メタデータ) (2024-03-07T05:38:56Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Scalable Quasi-Bayesian Inference for Instrumental Variable Regression [40.33643110066981]
本稿では,最近開発されたカーネル化IVモデルに基づいて,拡張性のある準ベイズ的回帰法を提案する。
提案手法では,データ生成プロセスに関する追加の仮定を必要とせず,対応する点推定法に匹敵する時間コストで,スケーラブルな近似推論アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-16T12:52:19Z) - On Finite-Sample Analysis of Offline Reinforcement Learning with Deep
ReLU Networks [46.067702683141356]
深層RELUネットワークを用いたオフライン強化学習の統計理論について検討する。
我々は,オフラインデータの分布変化,入力空間の次元,システムの正則性がOPE推定誤差を制御する方法の定量化を行う。
論文 参考訳(メタデータ) (2021-03-11T14:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。