論文の概要: Instrumental Variable Value Iteration for Causal Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.09907v1
- Date: Fri, 19 Feb 2021 13:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:35:44.090765
- Title: Instrumental Variable Value Iteration for Causal Offline Reinforcement
Learning
- Title(参考訳): Causal Offline Reinforcement Learningのためのインスツルメンタル変数の反復
- Authors: Luofeng Liao, Zuyue Fu, Zhuoran Yang, Mladen Kolar, Zhaoran Wang
- Abstract要約: オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーを学習する。
我々は、遷移力学が加法非線形関数形式を認める連結マルコフ決定過程について研究する。
本稿では,CMRの一次二重改質に基づくIV-aided Value Iteration (IVVI)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 94.70124304098469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning (RL) an optimal policy is learnt solely
from a priori collected observational data. However, in observational data,
actions are often confounded by unobserved variables. Instrumental variables
(IVs), in the context of RL, are the variables whose influence on the state
variables are all mediated through the action. When a valid instrument is
present, we can recover the confounded transition dynamics through
observational data. We study a confounded Markov decision process where the
transition dynamics admit an additive nonlinear functional form. Using IVs, we
derive a conditional moment restriction (CMR) through which we can identify
transition dynamics based on observational data. We propose a provably
efficient IV-aided Value Iteration (IVVI) algorithm based on a primal-dual
reformulation of CMR. To the best of our knowledge, this is the first provably
efficient algorithm for instrument-aided offline RL.
- Abstract(参考訳): オフライン強化学習(RL)では、事前収集された観測データのみから最適なポリシーを学習する。
しかしながら、観測データでは、アクションはしばしば観測されていない変数によって構成される。
インストゥルメンタル変数 (IVs) は、RL の文脈において、状態変数に対する影響がすべてアクションを通じて仲介される変数である。
有効な測定器が存在する場合、観測データを通じて結合した遷移ダイナミクスを回復することができる。
我々は、遷移力学が加法非線形関数形式を認める連結マルコフ決定過程について研究する。
IVsを用いて、観測データに基づいて遷移力学を識別できる条件付きモーメント制限(CMR)を導出する。
本稿では,CMRの一次二重改質に基づくIV-aided Value Iteration (IVVI)アルゴリズムを提案する。
私たちの知る限りでは、これは楽器支援オフラインRLのための最初の実証可能な効率のよいアルゴリズムです。
関連論文リスト
- Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - iSAGE: An Incremental Version of SAGE for Online Explanation on Data
Streams [8.49072000414555]
iSAGEは、SAGEの時間およびメモリ効率のインクリメンタル化である。
iSAGE は SAGE と同様の理論的性質を持つことを示す。
論文 参考訳(メタデータ) (2023-03-02T11:51:54Z) - Causal Inference with Conditional Instruments using Deep Generative
Models [21.771832598942677]
標準IVは、処理変数と関係があり、システム内の他のすべての変数とは独立していると期待されている。
変数を変数の集合に条件付けするための条件付きIV(CIV)法が提案されている。
平均因果効果推定のために,CIVの表現とその条件セットを,潜伏した共同設立者とのデータから学習することを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:31:54Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Learning Deep Features in Instrumental Variable Regression [42.085253974990046]
IVレグレッションでは、学習は2段階に進み、ステージ1は、機器から治療への線形回帰を行い、ステージ2は、機器に条件付きで、処理から結果への線形回帰を行う。
本稿では, 楽器, 治療, 結果の関係が非線形である場合に対処する手法として, DFIV(Deep Feature instrumental variable regression)を提案する。
論文 参考訳(メタデータ) (2020-10-14T15:14:49Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。