論文の概要: Causal Reinforcement Learning: An Instrumental Variable Approach
- arxiv url: http://arxiv.org/abs/2103.04021v1
- Date: Sat, 6 Mar 2021 03:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:51:19.856395
- Title: Causal Reinforcement Learning: An Instrumental Variable Approach
- Title(参考訳): 因果的強化学習:インストゥルメンタル変数のアプローチ
- Authors: Jin Li and Ye Luo and Xiaowei Zhang
- Abstract要約: データ生成とデータ解析の動的な相互作用は、標準データ分析における内在性の問題を悪化させる新しいタイプのバイアス -- 強化バイアス -- に繋がることを示している。
この論文の重要な貢献は、ノイズが時間依存を特徴とする一般的な設定におけるアルゴリズムの分析を可能にする新しい手法の開発である。
- 参考スコア(独自算出の注目度): 8.881788084913147
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the standard data analysis framework, data is first collected (once for
all), and then data analysis is carried out. With the advancement of digital
technology, decisionmakers constantly analyze past data and generate new data
through the decisions they make. In this paper, we model this as a Markov
decision process and show that the dynamic interaction between data generation
and data analysis leads to a new type of bias -- reinforcement bias -- that
exacerbates the endogeneity problem in standard data analysis.
We propose a class of instrument variable (IV)-based reinforcement learning
(RL) algorithms to correct for the bias and establish their asymptotic
properties by incorporating them into a two-timescale stochastic approximation
framework. A key contribution of the paper is the development of new techniques
that allow for the analysis of the algorithms in general settings where noises
feature time-dependency.
We use the techniques to derive sharper results on finite-time trajectory
stability bounds: with a polynomial rate, the entire future trajectory of the
iterates from the algorithm fall within a ball that is centered at the true
parameter and is shrinking at a (different) polynomial rate. We also use the
technique to provide formulas for inferences that are rarely done for RL
algorithms. These formulas highlight how the strength of the IV and the degree
of the noise's time dependency affect the inference.
- Abstract(参考訳): 標準データ分析フレームワークでは、まずデータを(すべてについて)収集し、次にデータ分析を実行する。
デジタル技術の進歩により、意思決定者は過去のデータを常に分析し、意思決定を通じて新しいデータを生成する。
本稿では,これをマルコフ決定過程としてモデル化し,データ生成とデータ解析の動的な相互作用が,標準データ解析における内在性の問題を悪化させる新たなタイプのバイアス -- 強化バイアス -- をもたらすことを示す。
本稿では,そのバイアスを補正し,その漸近特性を2段階の確率近似フレームワークに組み込むことにより,機器変数(IV)に基づく強化学習(RL)アルゴリズムを提案する。
この論文の重要な貢献は、ノイズが時間依存を特徴とする一般的な設定におけるアルゴリズムの分析を可能にする新しい手法の開発である。
有限時間軌道安定性境界におけるよりシャープな結果の導出にこの手法を用いる: 多項式率では、アルゴリズムからのイテレートの将来の軌道は、真のパラメータ中心の球の中に落ち、(微分)多項式レートで縮退する。
また、この手法を用いて、RLアルゴリズムではめったに行われない推論式を提供する。
これらの公式は、IVの強さとノイズの時間依存性の程度が推測にどのように影響するかを強調する。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Towards Data-Algorithm Dependent Generalization: a Case Study on
Overparameterized Linear Regression [19.047997113063147]
本稿では,データ依存学習軌跡全体の一般化挙動を考察したデータ-アルゴリズム整合性の概念を提案する。
我々は、データ依存軌道解析を行い、そのような環境での互換性に十分な条件を導出する。
論文 参考訳(メタデータ) (2022-02-12T12:42:36Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Dynamic Selection in Algorithmic Decision-making [9.172670955429906]
本稿では,内因性データを用いたオンライン学習アルゴリズムにおいて,動的選択問題を特定し,対処する。
データの内在性が決定の選択に影響を与えるため、新しいバイアス(自己充足バイアス)が発生する。
バイアスを補正するインストゥルメンタル変数ベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-28T01:41:37Z) - Scalable Quasi-Bayesian Inference for Instrumental Variable Regression [40.33643110066981]
本稿では,最近開発されたカーネル化IVモデルに基づいて,拡張性のある準ベイズ的回帰法を提案する。
提案手法では,データ生成プロセスに関する追加の仮定を必要とせず,対応する点推定法に匹敵する時間コストで,スケーラブルな近似推論アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-16T12:52:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。