Fugu-MT 論文翻訳(概要): Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation

論文の概要: Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation

arxiv url: http://arxiv.org/abs/2012.09092v1
Date: Wed, 16 Dec 2020 17:21:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-03 03:07:58.809620
Title: Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation
Title（参考訳）: 対実データ拡張によるサンプル効率の良い強化学習
Authors: Chaochao Lu, Biwei Huang, Ke Wang, Jos\'e Miguel Hern\'andez-Lobato, Kun Zhang, Bernhard Sch\"olkopf
Abstract要約: 医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
参考スコア（独自算出の注目度）: 15.451690870640295
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) algorithms usually require a substantial amount of interaction data and perform well only for specific tasks in a fixed environment. In some scenarios such as healthcare, however, usually only few records are available for each patient, and patients may show different responses to the same treatment, impeding the application of current RL algorithms to learn optimal policies. To address the issues of mechanism heterogeneity and related data scarcity, we propose a data-efficient RL algorithm that exploits structural causal models (SCMs) to model the state dynamics, which are estimated by leveraging both commonalities and differences across subjects. The learned SCM enables us to counterfactually reason what would have happened had another treatment been taken. It helps avoid real (possibly risky) exploration and mitigates the issue that limited experiences lead to biased policies. We propose counterfactual RL algorithms to learn both population-level and individual-level policies. We show that counterfactual outcomes are identifiable under mild conditions and that Q- learning on the counterfactual-based augmented data set converges to the optimal value function. Experimental results on synthetic and real-world data demonstrate the efficacy of the proposed approach.
Abstract（参考訳）: 強化学習(rl)アルゴリズムは通常、かなりの量のインタラクションデータを必要とし、固定された環境での特定のタスクに対してのみうまく機能する。しかしながら、医療などのいくつかのシナリオでは、通常、各患者に利用可能な記録はほとんどなく、患者は同じ治療に対する異なる反応を示すことがあるため、最適なポリシーを学ぶために現在のRLアルゴリズムの適用を妨げる。本研究では, 構造因果モデル(SCM)を用いて, 対象間の共通性と相違を利用して推定される状態ダイナミクスをモデル化するデータ効率の高いRLアルゴリズムを提案する。学習されたscmは、もし別の治療が受けられたら何が起こったのかを、事実上の推論を可能にします。実際の(おそらくリスクの高い)探索を避け、限られた経験がバイアスのあるポリシーにつながる問題を軽減します。本稿では,人口レベルと個人レベルの両方を学習するための対実的RLアルゴリズムを提案する。本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。合成および実世界のデータに対する実験結果から,提案手法の有効性が示された。

関連論文リスト

Sanity Checking Causal Representation Learning on a Simple Real-World System [11.429106388558925]
我々は,これらの手法が動作すると期待される,シンプルな実世界のシステムにおいて,因果表現学習の手法を評価する。 CRLに対する異なるアプローチを示す手法を選択し,それらがすべて根底にある因果関係の回復に失敗していることを確認した。弊社の取り組みは、最先端の理論的約束と、その応用における課題の対比を強調している。
論文参考訳（メタデータ） (2025-02-27T13:56:54Z)
Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。我々は、シミュレートされたデータの教師あり学習を通じて因果関係を特定するために訓練されたニューラルネットワークを用いる。大規模遺伝子制御ネットワークにおける因果関係の同定における本手法の有効性を実証した。
論文参考訳（メタデータ） (2024-08-29T02:21:11Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
Leveraging Factored Action Spaces for Efficient Offline Reinforcement Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文参考訳（メタデータ） (2023-05-02T19:13:10Z)
Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-21T21:42:03Z)
Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文参考訳（メタデータ） (2023-01-21T11:30:13Z)
Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。本手法の有効性を実証し,実験的に検証する。
論文参考訳（メタデータ） (2022-11-28T14:34:39Z)
Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文参考訳（メタデータ） (2022-06-11T18:03:26Z)
Auto-FedRL: Federated Hyperparameter Optimization for Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文参考訳（メタデータ） (2022-03-12T04:11:42Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文参考訳（メタデータ） (2021-03-23T17:49:50Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。