論文の概要: An Analysis of Reinforcement Learning for Malaria Control
- arxiv url: http://arxiv.org/abs/2107.08988v1
- Date: Mon, 19 Jul 2021 16:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:14:38.046343
- Title: An Analysis of Reinforcement Learning for Malaria Control
- Title(参考訳): マラリア対策のための強化学習の分析
- Authors: Ndivhuwo Makondo, Arinze Lawrence Folarin, Simphiwe Nhlahla Zitha,
Sekou Lionel Remy
- Abstract要約: 本稿では,マラリア対策の定式化について検討し,文献におけるいくつかの定式化の包括的分析について述べる。
これまでの研究とは対照的に, 上位信頼境界に基づく単純なアルゴリズムは, 優れたマラリア政策を学習するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work on policy learning for Malaria control has often formulated the
problem as an optimization problem assuming the objective function and the
search space have a specific structure. The problem has been formulated as
multi-armed bandits, contextual bandits and a Markov Decision Process in
isolation. Furthermore, an emphasis is put on developing new algorithms
specific to an instance of Malaria control, while ignoring a plethora of
simpler and general algorithms in the literature. In this work, we formally
study the formulation of Malaria control and present a comprehensive analysis
of several formulations used in the literature. In addition, we implement and
analyze several reinforcement learning algorithms in all formulations and
compare them to black box optimization. In contrast to previous work, our
results show that simple algorithms based on Upper Confidence Bounds are
sufficient for learning good Malaria policies, and tend to outperform their
more advanced counterparts on the malaria OpenAI Gym environment.
- Abstract(参考訳): マラリア対策のための政策学習に関する研究は、目的関数と探索空間が特定の構造を持つと仮定して、最適化問題としてしばしば定式化されてきた。
この問題は、マルチアームのバンディット、コンテキストのバンディット、マルコフ決定過程を分離して定式化されている。
さらに、文献における単純で一般的なアルゴリズムの多さを無視しながら、マラリア制御のインスタンスに特有の新しいアルゴリズムの開発に重点を置いている。
本研究は,マラリア対策の定式化を正式に検討し,文献で用いられるいくつかの定式化の包括的分析を行った。
さらに,すべての定式化において複数の強化学習アルゴリズムを実装し解析し,ブラックボックスの最適化と比較する。
従来の研究とは対照的に,高い信頼度に基づく単純なアルゴリズムは優れたマラリア政策を学ぶのに十分であり,マラリアのopenai体育館環境において,より先進的なアルゴリズムよりも優れる傾向を示した。
関連論文リスト
- Mathematics of statistical sequential decision-making: concentration, risk-awareness and modelling in stochastic bandits, with applications to bariatric surgery [2.266258510757917]
本論文は術後患者の統計的シーケンシャル意思決定アルゴリズムの分析において生じる数学的課題について考察することを目的としている。
我々は,新しい安全で有意な濃度境界を考案し,リスク認識型コンテキストブレイジットの新しい枠組みを導入し,弱い仮定の下で新しい非パラメトリックブレイジットアルゴリズムを解析した。
術後のパーソナライズド・フォローアップ・レコメンデーションに向けた第一歩として, 手術後の長期的体重トラジェクトリを予測するために, 医師や外科医とともに, 解釈可能な機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-05-03T10:50:30Z) - Best-Effort Adaptation [62.00856290846247]
本稿では, 試料再重み付け法に関する新しい理論的解析を行い, 試料再重み付け法を一様に保持する境界について述べる。
これらの境界が、我々が詳細に議論する学習アルゴリズムの設計を導く方法を示す。
本稿では,本アルゴリズムの有効性を実証する一連の実験結果について報告する。
論文 参考訳(メタデータ) (2023-05-10T00:09:07Z) - Planning Multiple Epidemic Interventions with Reinforcement Learning [7.51289645756884]
最適な計画は、寿命の最小限の損失、病気の重荷、経済的コストによる流行を抑制することである。
最適な計画を見つけることは、現実的な設定における難解な計算問題である。
我々は、最先端のアクター-批評家強化学習アルゴリズムを、全体的なコストを最小化する計画の探索に適用する。
論文 参考訳(メタデータ) (2023-01-30T11:51:24Z) - Deep learning methods for drug response prediction in cancer:
predominant and emerging trends [50.281853616905416]
がんを研究・治療するための計算予測モデルをエクスプロイトすることは、薬物開発の改善と治療計画のパーソナライズドデザインにおいて大きな可能性を秘めている。
最近の研究の波は、ディープラーニング手法を用いて、薬物治療に対するがん反応を予測するという有望な結果を示している。
このレビューは、この分野の現状をよりよく理解し、主要な課題と将来性のあるソリューションパスを特定します。
論文 参考訳(メタデータ) (2022-11-18T03:26:31Z) - Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization [1.9580473532948401]
本稿では,モンテカルロ批判のアンサンブルを用いた探索行動補正手法を提案する。
本稿では,提案した探索モジュールをポリシーと批判的修正の両方に活用する新しいアルゴリズムを提案する。
提案アルゴリズムは,DMControlスイートの様々な問題に対して,現代の強化学習アルゴリズムと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-25T15:39:52Z) - A Survey for Solving Mixed Integer Programming via Machine Learning [76.04988886859871]
本稿では、混合整数(MIP)問題を解くための機械学習の動向について調査する。
本稿では、まず、MIPの定式化とプリミナリーと、MIPを解くための従来のアルゴリズムについて紹介する。
そして、機械学習とMIPアルゴリズムの異なる統合をさらに促進することを提唱する。
論文 参考訳(メタデータ) (2022-03-06T05:03:37Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Sparse Methods for Automatic Relevance Determination [0.0]
まず、自動妥当性決定(ARD)について検討し、スパースモデルを実現するために、追加の正規化やしきい値設定の必要性を解析的に実証する。
次に、正規化ベースとしきい値ベースという2つの手法のクラスについて論じる。
論文 参考訳(メタデータ) (2020-05-18T14:08:49Z) - Probabilistic Diagnostic Tests for Degradation Problems in Supervised
Learning [0.0]
分類アルゴリズムにおけるクラス不均衡、重なり合い、小さな分散、ノイズラベル、スパース限界精度などの問題。
各問題の兆候と症状の同定に基づく確率診断モデルを示す。
いくつかの教師付きアルゴリズムの動作と性能は、トレーニングセットにそのような問題がある場合に研究される。
論文 参考訳(メタデータ) (2020-04-06T20:32:35Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。