論文の概要: Asymptotic Theory for IV-Based Reinforcement Learning with Potential Endogeneity
- arxiv url: http://arxiv.org/abs/2103.04021v3
- Date: Tue, 24 Dec 2024 05:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 19:23:17.330549
- Title: Asymptotic Theory for IV-Based Reinforcement Learning with Potential Endogeneity
- Title(参考訳): IV-based reinforcement learning with potential Endogeneity の漸近理論
- Authors: Jin Li, Ye Luo, Zigan Wang, Xiaowei Zhang,
- Abstract要約: データ生成とデータ解析の動的相互作用は、新しいタイプのバイアス、すなわち強化バイアスをもたらすことを示す。
本稿では,そのバイアスを補正するために,計器変数(IV)に基づく強化学習(RL)アルゴリズムのクラスを提案する。
IVRLアルゴリズムの最適ポリシを推論するための公式を提供する。
- 参考スコア(独自算出の注目度): 7.470941567346781
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the standard data analysis framework, data is collected (once and for all), and then data analysis is carried out. However, with the advancement of digital technology, decision-makers constantly analyze past data and generate new data through their decisions. We model this as a Markov decision process and show that the dynamic interaction between data generation and data analysis leads to a new type of bias -- reinforcement bias -- that exacerbates the endogeneity problem in standard data analysis. We propose a class of instrument variable (IV)-based reinforcement learning (RL) algorithms to correct for the bias and establish their theoretical properties by incorporating them into a stochastic approximation (SA) framework. Our analysis accommodates iterate-dependent Markovian structures and, therefore, can be used to study RL algorithms with policy improvement. We also provide formulas for inference on optimal policies of the IV-RL algorithms. These formulas highlight how intertemporal dependencies of the Markovian environment affect the inference.
- Abstract(参考訳): 標準データ分析フレームワークでは、データを(すべてとすべて)収集し、次にデータ解析を行う。
しかし、デジタル技術の進歩に伴い、意思決定者は過去のデータを常に分析し、意思決定を通じて新しいデータを生成する。
我々はこれをマルコフ決定プロセスとしてモデル化し、データ生成とデータ解析の動的相互作用が、標準データ解析における内在性問題を悪化させる新しいタイプのバイアス、強化バイアスをもたらすことを示す。
本稿では,そのバイアスを補正し,確率近似(SA)フレームワークに組み込んで理論的特性を確立するための,計器変数(IV)に基づく強化学習(RL)アルゴリズムのクラスを提案する。
我々の分析は反復的依存型マルコフ構造に対応しており、政策改善によるRLアルゴリズムの研究に利用できる。
また,IV-RLアルゴリズムの最適ポリシの推論式も提供する。
これらの公式はマルコフ環境の時間的依存関係が推測にどのように影響するかを強調する。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Towards stable real-world equation discovery with assessing
differentiating quality influence [52.2980614912553]
一般的に用いられる有限差分法に代わる方法を提案する。
我々は,これらの手法を実問題と類似した問題に適用可能であること,および方程式発見アルゴリズムの収束性を確保する能力の観点から評価する。
論文 参考訳(メタデータ) (2023-11-09T23:32:06Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - An analysis of Universal Differential Equations for data-driven
discovery of Ordinary Differential Equations [7.48176340790825]
我々は、普通微分方程式(ODE)発見の文脈で、UDEフレームワークをテストすることで貢献する。
データ駆動型アプローチと数値解法を組み合わせる際の問題をいくつか取り上げる。
我々は,物理インフォームド・機械学習フレームワークの能力と限界を調査する上で,我々の分析は重要な貢献であると考えている。
論文 参考訳(メタデータ) (2023-06-17T12:26:50Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Towards Data-Algorithm Dependent Generalization: a Case Study on
Overparameterized Linear Regression [19.047997113063147]
本稿では,データ依存学習軌跡全体の一般化挙動を考察したデータ-アルゴリズム整合性の概念を提案する。
我々は、データ依存軌道解析を行い、そのような環境での互換性に十分な条件を導出する。
論文 参考訳(メタデータ) (2022-02-12T12:42:36Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Dynamic Selection in Algorithmic Decision-making [9.172670955429906]
本稿では,内因性データを用いたオンライン学習アルゴリズムにおいて,動的選択問題を特定し,対処する。
データの内在性が決定の選択に影響を与えるため、新しいバイアス(自己充足バイアス)が発生する。
バイアスを補正するインストゥルメンタル変数ベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-28T01:41:37Z) - Scalable Quasi-Bayesian Inference for Instrumental Variable Regression [40.33643110066981]
本稿では,最近開発されたカーネル化IVモデルに基づいて,拡張性のある準ベイズ的回帰法を提案する。
提案手法では,データ生成プロセスに関する追加の仮定を必要とせず,対応する点推定法に匹敵する時間コストで,スケーラブルな近似推論アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-16T12:52:19Z) - Towards Handling Uncertainty-at-Source in AI -- A Review and Next Steps
for Interval Regression [6.166295570030645]
本稿では,近年の成長領域である区間値データの線形回帰に着目した。
我々は,最先端手法の詳細な分析を行い,特性の異なるデータセットに適用した場合の動作,利点,落とし穴を明らかにする。
論文 参考訳(メタデータ) (2021-04-15T05:31:10Z) - Online Robust and Adaptive Learning from Data Streams [22.319483572757097]
オンライン学習では、アウトレーヤにしっかりと学習し、基盤となるデータ生成メカニズムの変化に迅速に適応する必要がある。
本稿では,従来のオンライン学習アルゴリズムの属性をロバスト性,後者を適応性と呼ぶ。
本稿では,このトレードオフを評価するために,近似に基づくロバスト性適応アルゴリズム(SRA)を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:49:04Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。