論文の概要: Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation
- arxiv url: http://arxiv.org/abs/2012.09092v1
- Date: Wed, 16 Dec 2020 17:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 03:07:58.809620
- Title: Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation
- Title(参考訳): 対実データ拡張によるサンプル効率の良い強化学習
- Authors: Chaochao Lu, Biwei Huang, Ke Wang, Jos\'e Miguel Hern\'andez-Lobato,
Kun Zhang, Bernhard Sch\"olkopf
- Abstract要約: 医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
- 参考スコア(独自算出の注目度): 15.451690870640295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms usually require a substantial amount
of interaction data and perform well only for specific tasks in a fixed
environment. In some scenarios such as healthcare, however, usually only few
records are available for each patient, and patients may show different
responses to the same treatment, impeding the application of current RL
algorithms to learn optimal policies. To address the issues of mechanism
heterogeneity and related data scarcity, we propose a data-efficient RL
algorithm that exploits structural causal models (SCMs) to model the state
dynamics, which are estimated by leveraging both commonalities and differences
across subjects. The learned SCM enables us to counterfactually reason what
would have happened had another treatment been taken. It helps avoid real
(possibly risky) exploration and mitigates the issue that limited experiences
lead to biased policies. We propose counterfactual RL algorithms to learn both
population-level and individual-level policies. We show that counterfactual
outcomes are identifiable under mild conditions and that Q- learning on the
counterfactual-based augmented data set converges to the optimal value
function. Experimental results on synthetic and real-world data demonstrate the
efficacy of the proposed approach.
- Abstract(参考訳): 強化学習(rl)アルゴリズムは通常、かなりの量のインタラクションデータを必要とし、固定された環境での特定のタスクに対してのみうまく機能する。
しかしながら、医療などのいくつかのシナリオでは、通常、各患者に利用可能な記録はほとんどなく、患者は同じ治療に対する異なる反応を示すことがあるため、最適なポリシーを学ぶために現在のRLアルゴリズムの適用を妨げる。
本研究では, 構造因果モデル(SCM)を用いて, 対象間の共通性と相違を利用して推定される状態ダイナミクスをモデル化するデータ効率の高いRLアルゴリズムを提案する。
学習されたscmは、もし別の治療が受けられたら何が起こったのかを、事実上の推論を可能にします。
実際の(おそらくリスクの高い)探索を避け、限られた経験がバイアスのあるポリシーにつながる問題を軽減します。
本稿では,人口レベルと個人レベルの両方を学習するための対実的RLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
合成および実世界のデータに対する実験結果から,提案手法の有効性が示された。
関連論文リスト
- Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.69967783513041]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
この問題に対する新たなアプローチとして,政策イテレーションの一段階を近似したDecompPIを提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。
本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文 参考訳(メタデータ) (2023-01-21T11:30:13Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。