論文の概要: Causal Reinforcement Learning: An Instrumental Variable Approach
- arxiv url: http://arxiv.org/abs/2103.04021v1
- Date: Sat, 6 Mar 2021 03:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:51:19.856395
- Title: Causal Reinforcement Learning: An Instrumental Variable Approach
- Title(参考訳): 因果的強化学習:インストゥルメンタル変数のアプローチ
- Authors: Jin Li and Ye Luo and Xiaowei Zhang
- Abstract要約: データ生成とデータ解析の動的な相互作用は、標準データ分析における内在性の問題を悪化させる新しいタイプのバイアス -- 強化バイアス -- に繋がることを示している。
この論文の重要な貢献は、ノイズが時間依存を特徴とする一般的な設定におけるアルゴリズムの分析を可能にする新しい手法の開発である。
- 参考スコア(独自算出の注目度): 8.881788084913147
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the standard data analysis framework, data is first collected (once for
all), and then data analysis is carried out. With the advancement of digital
technology, decisionmakers constantly analyze past data and generate new data
through the decisions they make. In this paper, we model this as a Markov
decision process and show that the dynamic interaction between data generation
and data analysis leads to a new type of bias -- reinforcement bias -- that
exacerbates the endogeneity problem in standard data analysis.
We propose a class of instrument variable (IV)-based reinforcement learning
(RL) algorithms to correct for the bias and establish their asymptotic
properties by incorporating them into a two-timescale stochastic approximation
framework. A key contribution of the paper is the development of new techniques
that allow for the analysis of the algorithms in general settings where noises
feature time-dependency.
We use the techniques to derive sharper results on finite-time trajectory
stability bounds: with a polynomial rate, the entire future trajectory of the
iterates from the algorithm fall within a ball that is centered at the true
parameter and is shrinking at a (different) polynomial rate. We also use the
technique to provide formulas for inferences that are rarely done for RL
algorithms. These formulas highlight how the strength of the IV and the degree
of the noise's time dependency affect the inference.
- Abstract(参考訳): 標準データ分析フレームワークでは、まずデータを(すべてについて)収集し、次にデータ分析を実行する。
デジタル技術の進歩により、意思決定者は過去のデータを常に分析し、意思決定を通じて新しいデータを生成する。
本稿では,これをマルコフ決定過程としてモデル化し,データ生成とデータ解析の動的な相互作用が,標準データ解析における内在性の問題を悪化させる新たなタイプのバイアス -- 強化バイアス -- をもたらすことを示す。
本稿では,そのバイアスを補正し,その漸近特性を2段階の確率近似フレームワークに組み込むことにより,機器変数(IV)に基づく強化学習(RL)アルゴリズムを提案する。
この論文の重要な貢献は、ノイズが時間依存を特徴とする一般的な設定におけるアルゴリズムの分析を可能にする新しい手法の開発である。
有限時間軌道安定性境界におけるよりシャープな結果の導出にこの手法を用いる: 多項式率では、アルゴリズムからのイテレートの将来の軌道は、真のパラメータ中心の球の中に落ち、(微分)多項式レートで縮退する。
また、この手法を用いて、RLアルゴリズムではめったに行われない推論式を提供する。
これらの公式は、IVの強さとノイズの時間依存性の程度が推測にどのように影響するかを強調する。
関連論文リスト
- Towards stable real-world equation discovery with assessing
differentiating quality influence [52.2980614912553]
一般的に用いられる有限差分法に代わる方法を提案する。
我々は,これらの手法を実問題と類似した問題に適用可能であること,および方程式発見アルゴリズムの収束性を確保する能力の観点から評価する。
論文 参考訳(メタデータ) (2023-11-09T23:32:06Z) - An analysis of Universal Differential Equations for data-driven
discovery of Ordinary Differential Equations [7.48176340790825]
我々は、普通微分方程式(ODE)発見の文脈で、UDEフレームワークをテストすることで貢献する。
データ駆動型アプローチと数値解法を組み合わせる際の問題をいくつか取り上げる。
我々は,物理インフォームド・機械学習フレームワークの能力と限界を調査する上で,我々の分析は重要な貢献であると考えている。
論文 参考訳(メタデータ) (2023-06-17T12:26:50Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Dynamic Selection in Algorithmic Decision-making [9.172670955429906]
本稿では,内因性データを用いたオンライン学習アルゴリズムにおいて,動的選択問題を特定し,対処する。
データの内在性が決定の選択に影響を与えるため、新しいバイアス(自己充足バイアス)が発生する。
バイアスを補正するインストゥルメンタル変数ベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-28T01:41:37Z) - Towards Handling Uncertainty-at-Source in AI -- A Review and Next Steps
for Interval Regression [6.166295570030645]
本稿では,近年の成長領域である区間値データの線形回帰に着目した。
我々は,最先端手法の詳細な分析を行い,特性の異なるデータセットに適用した場合の動作,利点,落とし穴を明らかにする。
論文 参考訳(メタデータ) (2021-04-15T05:31:10Z) - Online Robust and Adaptive Learning from Data Streams [22.319483572757097]
オンライン学習では、アウトレーヤにしっかりと学習し、基盤となるデータ生成メカニズムの変化に迅速に適応する必要がある。
本稿では,従来のオンライン学習アルゴリズムの属性をロバスト性,後者を適応性と呼ぶ。
本稿では,このトレードオフを評価するために,近似に基づくロバスト性適応アルゴリズム(SRA)を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:49:04Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。