論文の概要: Nested Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.02879v1
- Date: Wed, 6 Oct 2021 16:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 19:31:01.486146
- Title: Nested Policy Reinforcement Learning
- Title(参考訳): ネステッド政策強化学習
- Authors: Aishwarya Mandyam, Andrew Jones, Krzysztof Laudanski, Barbara
Engelhardt
- Abstract要約: 我々は,このような構造を示す環境において,最適なポリシを求めるRLフレームワークであるNFQI(Nested Policy fit Q-iteration)を導入する。
我々は、NFQIが関連する機能に依存し、少なくともグループ構造を考慮しないポリシーと同様に、機能するポリシーを産み出すことを発見した。
- 参考スコア(独自算出の注目度): 0.4305863273335901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy reinforcement learning (RL) has proven to be a powerful framework
for guiding agents' actions in environments with stochastic rewards and unknown
or noisy state dynamics. In many real-world settings, these agents must operate
in multiple environments, each with slightly different dynamics. For example,
we may be interested in developing policies to guide medical treatment for
patients with and without a given disease, or policies to navigate curriculum
design for students with and without a learning disability. Here, we introduce
nested policy fitted Q-iteration (NFQI), an RL framework that finds optimal
policies in environments that exhibit such a structure. Our approach develops a
nested $Q$-value function that takes advantage of the shared structure between
two groups of observations from two separate environments while allowing their
policies to be distinct from one another. We find that NFQI yields policies
that rely on relevant features and perform at least as well as a policy that
does not consider group structure. We demonstrate NFQI's performance using an
OpenAI Gym environment and a clinical decision making RL task. Our results
suggest that NFQI can develop policies that are better suited to many
real-world clinical environments.
- Abstract(参考訳): オフ・ポリチクス強化学習(RL)は、確率的報酬と未知あるいはノイズのある状態ダイナミクスを持つ環境でエージェントの行動を導くための強力な枠組みであることが証明されている。
多くの現実世界の設定では、エージェントは複数の環境で動作しなければなりません。
例えば、特定の疾患のある患者や非疾患の患者の治療を指導する政策や、学習障害のない学生のためのカリキュラムデザインをナビゲートするポリシーの開発に興味があるかもしれません。
本稿では,このような構造を示す環境において,最適なポリシを求めるRLフレームワークであるNFQI(Nested Policy fit Q-iteration)を紹介する。
提案手法は,2つの異なる環境からの2つの観測グループ間の共有構造を利用して,それぞれのポリシーを互いに区別するネスト付き$Q$値関数を開発する。
我々は,NFQIが関連する特徴に依存し,少なくともグループ構造を考慮しない政策と同様に,機能する政策を産み出すことを見出した。
我々は,OpenAI Gym環境と臨床意思決定RLタスクを用いてNFQIの性能を示す。
以上の結果から,NFQIは現実の多くの臨床環境に適した政策を立案できる可能性が示唆された。
関連論文リスト
- Development and Validation of Heparin Dosing Policies Using an Offline Reinforcement Learning Algorithm [0.7519918949973486]
本研究では,強化学習に基づくパーソナライズされたヘパリン投与ポリシーを提案する。
オフラインRL環境における分配エラーを最小限に抑えるため,バッチ制約ポリシを実装した。
本研究はヘパリン投与の実践を強化し、医学における高度な意思決定支援ツールの開発の前例を確立する。
論文 参考訳(メタデータ) (2024-09-24T05:20:38Z) - UniFed: A Universal Federation of a Mixture of Highly Heterogeneous Medical Image Classification Tasks [5.563171090433323]
われわれはUniFedを紹介した。UniFedは、あらゆる画像モダリティから病気を分類することを目的とした、普遍的なフェデレーション学習パラダイムである。
具体的には、ローカルモデルとグローバルモデルの両方を動的に調整することで、UniFedはクライアントとサーバの様々なタスク複雑さを考慮します。
我々は, 網膜, 病理組織学, 肝腫瘍の診断において, 精度, 通信コスト, コンバージェンス時間に比較して, フレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2024-07-29T23:15:15Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Machine learning-based patient selection in an emergency department [0.0]
本稿では機械学習(ML)に基づく患者選択手法の可能性について検討する。
システムの包括的な状態表現と、複雑な非線形選択関数が組み込まれている。
その結果,提案手法は評価条件の大部分においてAPQ法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-06-08T08:56:52Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - The Medkit-Learn(ing) Environment: Medical Decision Modelling through
Simulation [81.72197368690031]
医用シーケンシャルな意思決定に特化して設計された新しいベンチマークスイートを提案する。
Medkit-Learn(ing) Environmentは、高忠実度合成医療データに簡単かつ簡単にアクセスできるPythonパッケージである。
論文 参考訳(メタデータ) (2021-06-08T10:38:09Z) - COMPOSE: Cross-Modal Pseudo-Siamese Network for Patient Trial Matching [70.08786840301435]
本稿では, CrOss-Modal PseudO-SiamEse Network (COMPOSE) を提案する。
実験の結果,患者基準マッチングでは98.0%,患者基準マッチングでは83.7%の精度でAUCに到達できることがわかった。
論文 参考訳(メタデータ) (2020-06-15T21:01:33Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Deep Representation Learning of Electronic Health Records to Unlock
Patient Stratification at Scale [0.5498849973527224]
ヘテロジニアスEHRを処理するためのディープラーニングに基づく教師なしフレームワークを提案する。
患者層形成を効果的かつ効果的に行うことができる患者表現を導出する。
論文 参考訳(メタデータ) (2020-03-14T00:04:20Z) - Estimating Counterfactual Treatment Outcomes over Time Through
Adversarially Balanced Representations [114.16762407465427]
時間とともに治療効果を推定するためにCRN(Counterfactual Recurrent Network)を導入する。
CRNは、患者履歴のバランスの取れた表現を構築するために、ドメイン敵のトレーニングを使用する。
本モデルでは, 正解率の予測と適切な治療時期の選択において, 誤差の低減を図っている。
論文 参考訳(メタデータ) (2020-02-10T20:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。