論文の概要: Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation
- arxiv url: http://arxiv.org/abs/2012.09092v1
- Date: Wed, 16 Dec 2020 17:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 03:07:58.809620
- Title: Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation
- Title(参考訳): 対実データ拡張によるサンプル効率の良い強化学習
- Authors: Chaochao Lu, Biwei Huang, Ke Wang, Jos\'e Miguel Hern\'andez-Lobato,
Kun Zhang, Bernhard Sch\"olkopf
- Abstract要約: 医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
- 参考スコア(独自算出の注目度): 15.451690870640295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms usually require a substantial amount
of interaction data and perform well only for specific tasks in a fixed
environment. In some scenarios such as healthcare, however, usually only few
records are available for each patient, and patients may show different
responses to the same treatment, impeding the application of current RL
algorithms to learn optimal policies. To address the issues of mechanism
heterogeneity and related data scarcity, we propose a data-efficient RL
algorithm that exploits structural causal models (SCMs) to model the state
dynamics, which are estimated by leveraging both commonalities and differences
across subjects. The learned SCM enables us to counterfactually reason what
would have happened had another treatment been taken. It helps avoid real
(possibly risky) exploration and mitigates the issue that limited experiences
lead to biased policies. We propose counterfactual RL algorithms to learn both
population-level and individual-level policies. We show that counterfactual
outcomes are identifiable under mild conditions and that Q- learning on the
counterfactual-based augmented data set converges to the optimal value
function. Experimental results on synthetic and real-world data demonstrate the
efficacy of the proposed approach.
- Abstract(参考訳): 強化学習(rl)アルゴリズムは通常、かなりの量のインタラクションデータを必要とし、固定された環境での特定のタスクに対してのみうまく機能する。
しかしながら、医療などのいくつかのシナリオでは、通常、各患者に利用可能な記録はほとんどなく、患者は同じ治療に対する異なる反応を示すことがあるため、最適なポリシーを学ぶために現在のRLアルゴリズムの適用を妨げる。
本研究では, 構造因果モデル(SCM)を用いて, 対象間の共通性と相違を利用して推定される状態ダイナミクスをモデル化するデータ効率の高いRLアルゴリズムを提案する。
学習されたscmは、もし別の治療が受けられたら何が起こったのかを、事実上の推論を可能にします。
実際の(おそらくリスクの高い)探索を避け、限られた経験がバイアスのあるポリシーにつながる問題を軽減します。
本稿では,人口レベルと個人レベルの両方を学習するための対実的RLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
合成および実世界のデータに対する実験結果から,提案手法の有効性が示された。
関連論文リスト
- Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
我々は、シミュレートされたデータの教師あり学習を通じて因果関係を特定するために訓練されたニューラルネットワークを用いる。
大規模遺伝子制御ネットワークにおける因果関係の同定における本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。
本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文 参考訳(メタデータ) (2023-01-21T11:30:13Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。