論文の概要: Asymptotic Theory for IV-Based Reinforcement Learning with Potential Endogeneity
- arxiv url: http://arxiv.org/abs/2103.04021v3
- Date: Tue, 24 Dec 2024 05:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:09.439981
- Title: Asymptotic Theory for IV-Based Reinforcement Learning with Potential Endogeneity
- Title(参考訳): IV-based reinforcement learning with potential Endogeneity の漸近理論
- Authors: Jin Li, Ye Luo, Zigan Wang, Xiaowei Zhang,
- Abstract要約: データ生成とデータ解析の動的相互作用は、新しいタイプのバイアス、すなわち強化バイアスをもたらすことを示す。
本稿では,そのバイアスを補正するために,計器変数(IV)に基づく強化学習(RL)アルゴリズムのクラスを提案する。
IVRLアルゴリズムの最適ポリシを推論するための公式を提供する。
- 参考スコア(独自算出の注目度): 7.470941567346781
- License:
- Abstract: In the standard data analysis framework, data is collected (once and for all), and then data analysis is carried out. However, with the advancement of digital technology, decision-makers constantly analyze past data and generate new data through their decisions. We model this as a Markov decision process and show that the dynamic interaction between data generation and data analysis leads to a new type of bias -- reinforcement bias -- that exacerbates the endogeneity problem in standard data analysis. We propose a class of instrument variable (IV)-based reinforcement learning (RL) algorithms to correct for the bias and establish their theoretical properties by incorporating them into a stochastic approximation (SA) framework. Our analysis accommodates iterate-dependent Markovian structures and, therefore, can be used to study RL algorithms with policy improvement. We also provide formulas for inference on optimal policies of the IV-RL algorithms. These formulas highlight how intertemporal dependencies of the Markovian environment affect the inference.
- Abstract(参考訳): 標準データ分析フレームワークでは、データを(すべてとすべて)収集し、次にデータ解析を行う。
しかし、デジタル技術の進歩に伴い、意思決定者は過去のデータを常に分析し、意思決定を通じて新しいデータを生成する。
我々はこれをマルコフ決定プロセスとしてモデル化し、データ生成とデータ解析の動的相互作用が、標準データ解析における内在性問題を悪化させる新しいタイプのバイアス、強化バイアスをもたらすことを示す。
本稿では,そのバイアスを補正し,確率近似(SA)フレームワークに組み込んで理論的特性を確立するための,計器変数(IV)に基づく強化学習(RL)アルゴリズムのクラスを提案する。
我々の分析は反復的依存型マルコフ構造に対応しており、政策改善によるRLアルゴリズムの研究に利用できる。
また,IV-RLアルゴリズムの最適ポリシの推論式も提供する。
これらの公式はマルコフ環境の時間的依存関係が推測にどのように影響するかを強調する。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Towards Data-Algorithm Dependent Generalization: a Case Study on
Overparameterized Linear Regression [19.047997113063147]
本稿では,データ依存学習軌跡全体の一般化挙動を考察したデータ-アルゴリズム整合性の概念を提案する。
我々は、データ依存軌道解析を行い、そのような環境での互換性に十分な条件を導出する。
論文 参考訳(メタデータ) (2022-02-12T12:42:36Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Dynamic Selection in Algorithmic Decision-making [9.172670955429906]
本稿では,内因性データを用いたオンライン学習アルゴリズムにおいて,動的選択問題を特定し,対処する。
データの内在性が決定の選択に影響を与えるため、新しいバイアス(自己充足バイアス)が発生する。
バイアスを補正するインストゥルメンタル変数ベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-28T01:41:37Z) - Scalable Quasi-Bayesian Inference for Instrumental Variable Regression [40.33643110066981]
本稿では,最近開発されたカーネル化IVモデルに基づいて,拡張性のある準ベイズ的回帰法を提案する。
提案手法では,データ生成プロセスに関する追加の仮定を必要とせず,対応する点推定法に匹敵する時間コストで,スケーラブルな近似推論アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-16T12:52:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。