論文の概要: Instrumental Variable Value Iteration for Causal Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.09907v1
- Date: Fri, 19 Feb 2021 13:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:35:44.090765
- Title: Instrumental Variable Value Iteration for Causal Offline Reinforcement
Learning
- Title(参考訳): Causal Offline Reinforcement Learningのためのインスツルメンタル変数の反復
- Authors: Luofeng Liao, Zuyue Fu, Zhuoran Yang, Mladen Kolar, Zhaoran Wang
- Abstract要約: オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーを学習する。
我々は、遷移力学が加法非線形関数形式を認める連結マルコフ決定過程について研究する。
本稿では,CMRの一次二重改質に基づくIV-aided Value Iteration (IVVI)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 94.70124304098469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning (RL) an optimal policy is learnt solely
from a priori collected observational data. However, in observational data,
actions are often confounded by unobserved variables. Instrumental variables
(IVs), in the context of RL, are the variables whose influence on the state
variables are all mediated through the action. When a valid instrument is
present, we can recover the confounded transition dynamics through
observational data. We study a confounded Markov decision process where the
transition dynamics admit an additive nonlinear functional form. Using IVs, we
derive a conditional moment restriction (CMR) through which we can identify
transition dynamics based on observational data. We propose a provably
efficient IV-aided Value Iteration (IVVI) algorithm based on a primal-dual
reformulation of CMR. To the best of our knowledge, this is the first provably
efficient algorithm for instrument-aided offline RL.
- Abstract(参考訳): オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーを学習する。
しかしながら、観測データでは、アクションはしばしば観測されていない変数によって構成される。
インストゥルメンタル変数 (IVs) は、RL の文脈において、状態変数に対する影響がすべてアクションを通じて仲介される変数である。
有効な測定器が存在する場合、観測データを通じて結合した遷移ダイナミクスを回復することができる。
我々は、遷移力学が加法非線形関数形式を認める連結マルコフ決定過程について研究する。
IVsを用いて、観測データに基づいて遷移力学を識別できる条件付きモーメント制限(CMR)を導出する。
本稿では,CMRの一次二重改質に基づくIV-aided Value Iteration (IVVI)アルゴリズムを提案する。
私たちの知る限りでは、これは楽器支援オフラインRLのための最初の実証可能な効率のよいアルゴリズムです。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Learning Decision Policies with Instrumental Variables through Double Machine Learning [16.842233444365764]
データリッチな設定における意思決定ポリシーの学習における一般的な問題は、オフラインデータセットにおける急激な相関である。
2段階IV回帰のバイアスを低減する非線形IV回帰法であるDML-IVを提案する。
IV回帰ベンチマークでは、最先端のIV回帰法よりも優れており、楽器の存在下で高い性能のポリシーを学ぶ。
論文 参考訳(メタデータ) (2024-05-14T10:55:04Z) - Regularized DeepIV with Model Selection [72.17508967124081]
正規化DeepIV(RDIV)回帰は最小ノルムIV解に収束することができる。
我々の手法は現在の最先端の収束率と一致している。
論文 参考訳(メタデータ) (2024-03-07T05:38:56Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Causal Inference with Conditional Instruments using Deep Generative
Models [21.771832598942677]
標準IVは、処理変数と関係があり、システム内の他のすべての変数とは独立していると期待されている。
変数を変数の集合に条件付けするための条件付きIV(CIV)法が提案されている。
平均因果効果推定のために,CIVの表現とその条件セットを,潜伏した共同設立者とのデータから学習することを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:31:54Z) - Ancestral Instrument Method for Causal Inference without Complete
Knowledge [0.0]
観測データから因果効果を推定する主な障害は、観測不能な共起である。
条件IVは、観測変数の集合を条件付けすることで標準IVの要求を緩和するために提案されている。
本研究では,祖先IVと観測データを用いた因果効果推定アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-11T07:02:16Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Learning Deep Features in Instrumental Variable Regression [42.085253974990046]
IVレグレッションでは、学習は2段階に進み、ステージ1は、機器から治療への線形回帰を行い、ステージ2は、機器に条件付きで、処理から結果への線形回帰を行う。
本稿では, 楽器, 治療, 結果の関係が非線形である場合に対処する手法として, DFIV(Deep Feature instrumental variable regression)を提案する。
論文 参考訳(メタデータ) (2020-10-14T15:14:49Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。