論文の概要: Data-Efficient Reinforcement Learning for Malaria Control
- arxiv url: http://arxiv.org/abs/2105.01620v2
- Date: Wed, 5 May 2021 04:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 01:25:07.555442
- Title: Data-Efficient Reinforcement Learning for Malaria Control
- Title(参考訳): マラリア管理のためのデータ効率の良い強化学習
- Authors: Lixin Zou, Long Xia, Linfang Hou, Xiangyu Zhao, and Dawei Yin
- Abstract要約: 政策立案者が直面する主な課題は、いくつかの試行で複雑な環境と対話することで、スクラッチからポリシーを学ぶことである。
この研究は、Variance-Bonus Monte Carlo Tree Search (VB-MCTS)と呼ばれる実用的でデータ効率のよいポリシー学習手法を導入し、ごくわずかなデータでコピーでき、ほんの数回の試行でスクラッチから学習しやすくする。
- 参考スコア(独自算出の注目度): 27.86305704178447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential decision-making under cost-sensitive tasks is prohibitively
daunting, especially for the problem that has a significant impact on people's
daily lives, such as malaria control, treatment recommendation. The main
challenge faced by policymakers is to learn a policy from scratch by
interacting with a complex environment in a few trials. This work introduces a
practical, data-efficient policy learning method, named Variance-Bonus Monte
Carlo Tree Search~(VB-MCTS), which can copy with very little data and
facilitate learning from scratch in only a few trials. Specifically, the
solution is a model-based reinforcement learning method. To avoid model bias,
we apply Gaussian Process~(GP) regression to estimate the transitions
explicitly. With the GP world model, we propose a variance-bonus reward to
measure the uncertainty about the world. Adding the reward to the planning with
MCTS can result in more efficient and effective exploration. Furthermore, the
derived polynomial sample complexity indicates that VB-MCTS is sample
efficient. Finally, outstanding performance on a competitive world-level RL
competition and extensive experimental results verify its advantage over the
state-of-the-art on the challenging malaria control task.
- Abstract(参考訳): 特に、マラリア対策や治療勧告など、人々の日常生活に重大な影響を及ぼす問題に対して、コストに敏感なタスクの下での連続的な意思決定は困難である。
政策立案者が直面する主な課題は、いくつかの試行で複雑な環境と対話することで、スクラッチからポリシーを学ぶことである。
この研究は、Variance-Bonus Monte Carlo Tree Search~(VB-MCTS)と呼ばれる実用的でデータ効率のよいポリシー学習手法を導入し、ごくわずかなデータでコピーでき、ほんの数回の試行でスクラッチから学習しやすくする。
具体的には、モデルに基づく強化学習手法である。
モデルバイアスを避けるために、ガウス過程~(GP)回帰を適用し、遷移を明示的に推定する。
GP世界モデルを用いて、世界の不確実性を測定するために分散結合報酬を提案する。
MCTSで計画に報酬を加えることで、より効率的で効果的な探索が可能になる。
さらに、導出多項式のサンプル複雑性はvb-mctsがサンプル効率が高いことを示している。
最後に、競争力のある世界レベルのRL競技における卓越したパフォーマンスと広範な実験結果により、挑戦的なマラリア対策の最先端に対する優位性を検証する。
関連論文リスト
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Learning to Schedule Online Tasks with Bandit Feedback [7.671139712158846]
オンラインタスクスケジューリングは、クラウドコンピューティングやクラウドソーシングにおけるタスク集約型アプリケーションにおいて重要な役割を果たす。
本稿では,二重最適化学習に基づくRobins-Monro(DOL-RM)アルゴリズムを提案する。
DOL-RMは、報酬対コスト比の楽観的な推定と決定モジュールを組み込んだ学習モジュールを統合する。
論文 参考訳(メタデータ) (2024-02-26T10:11:28Z) - Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文 参考訳(メタデータ) (2024-01-17T21:28:00Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z) - Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文 参考訳(メタデータ) (2020-11-02T08:46:27Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。