論文の概要: Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.09907v3
- Date: Mon, 14 Oct 2024 22:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:33.680335
- Title: Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning
- Title(参考訳): Causal Offline Reinforcement Learningのためのインスツルメンタル変数の反復
- Authors: Luofeng Liao, Zuyue Fu, Zhuoran Yang, Yixin Wang, Mladen Kolar, Zhaoran Wang,
- Abstract要約: オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーが学習される。
遷移力学が加法的非線形汎関数形式を持つようなマルコフ決定過程について検討する。
そこで本稿では,条件付きモーメント制限の原始的2次元再構成に基づく,証明可能なIVVIアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 107.70165026669308
- License:
- Abstract: In offline reinforcement learning (RL) an optimal policy is learned solely from a priori collected observational data. However, in observational data, actions are often confounded by unobserved variables. Instrumental variables (IVs), in the context of RL, are the variables whose influence on the state variables is all mediated by the action. When a valid instrument is present, we can recover the confounded transition dynamics through observational data. We study a confounded Markov decision process where the transition dynamics admit an additive nonlinear functional form. Using IVs, we derive a conditional moment restriction through which we can identify transition dynamics based on observational data. We propose a provably efficient IV-aided Value Iteration (IVVI) algorithm based on a primal-dual reformulation of the conditional moment restriction. To our knowledge, this is the first provably efficient algorithm for instrument-aided offline RL.
- Abstract(参考訳): オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーが学習される。
しかしながら、観測データでは、アクションはしばしば観測されていない変数によって構成される。
インスツルメンタル変数(IVs)は、RLの文脈において、状態変数に影響を及ぼす変数は、すべてアクションによって媒介される。
有効な機器が存在する場合、観測データにより、確立された遷移力学を復元することができる。
遷移力学が加法的非線形汎関数形式を持つようなマルコフ決定過程について検討する。
IVsを用いて、観測データに基づいて遷移力学を識別できる条件付きモーメント制約を導出する。
そこで本稿では,条件付きモーメント制限の原始的2次元再構成に基づく,証明可能なIVVIアルゴリズムを提案する。
我々の知る限り、これは機器支援オフラインRLのための証明可能なアルゴリズムとしては初めてのものである。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Learning Decision Policies with Instrumental Variables through Double Machine Learning [16.842233444365764]
データリッチな設定における意思決定ポリシーの学習における一般的な問題は、オフラインデータセットにおける急激な相関である。
2段階IV回帰のバイアスを低減する非線形IV回帰法であるDML-IVを提案する。
IV回帰ベンチマークでは、最先端のIV回帰法よりも優れており、楽器の存在下で高い性能のポリシーを学ぶ。
論文 参考訳(メタデータ) (2024-05-14T10:55:04Z) - Regularized DeepIV with Model Selection [72.17508967124081]
正規化DeepIV(RDIV)回帰は最小ノルムIV解に収束することができる。
我々の手法は現在の最先端の収束率と一致している。
論文 参考訳(メタデータ) (2024-03-07T05:38:56Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Causal Inference with Conditional Instruments using Deep Generative
Models [21.771832598942677]
標準IVは、処理変数と関係があり、システム内の他のすべての変数とは独立していると期待されている。
変数を変数の集合に条件付けするための条件付きIV(CIV)法が提案されている。
平均因果効果推定のために,CIVの表現とその条件セットを,潜伏した共同設立者とのデータから学習することを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:31:54Z) - Ancestral Instrument Method for Causal Inference without Complete
Knowledge [0.0]
観測データから因果効果を推定する主な障害は、観測不能な共起である。
条件IVは、観測変数の集合を条件付けすることで標準IVの要求を緩和するために提案されている。
本研究では,祖先IVと観測データを用いた因果効果推定アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-11T07:02:16Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Learning Deep Features in Instrumental Variable Regression [42.085253974990046]
IVレグレッションでは、学習は2段階に進み、ステージ1は、機器から治療への線形回帰を行い、ステージ2は、機器に条件付きで、処理から結果への線形回帰を行う。
本稿では, 楽器, 治療, 結果の関係が非線形である場合に対処する手法として, DFIV(Deep Feature instrumental variable regression)を提案する。
論文 参考訳(メタデータ) (2020-10-14T15:14:49Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。