論文の概要: POPCORN: Partially Observed Prediction COnstrained ReiNforcement
Learning
- arxiv url: http://arxiv.org/abs/2001.04032v2
- Date: Tue, 31 Mar 2020 15:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 22:40:40.319814
- Title: POPCORN: Partially Observed Prediction COnstrained ReiNforcement
Learning
- Title(参考訳): POPCORN:部分的に観測された予測の制約付き強化学習
- Authors: Joseph Futoma, Michael C. Hughes, Finale Doshi-Velez
- Abstract要約: 本稿では,高性能なポリシと高品質な生成モデルの両方を生産する新たな最適化手法を提案する。
本研究は, 合成例と医学的意思決定問題に対するアプローチを実証する。
- 参考スコア(独自算出の注目度): 33.716448855358536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many medical decision-making tasks can be framed as partially observed Markov
decision processes (POMDPs). However, prevailing two-stage approaches that
first learn a POMDP and then solve it often fail because the model that best
fits the data may not be well suited for planning. We introduce a new
optimization objective that (a) produces both high-performing policies and
high-quality generative models, even when some observations are irrelevant for
planning, and (b) does so in batch off-policy settings that are typical in
healthcare, when only retrospective data is available. We demonstrate our
approach on synthetic examples and a challenging medical decision-making
problem.
- Abstract(参考訳): 多くの医学的意思決定タスクは、部分的に観察されたマルコフ決定プロセス(POMDP)として表すことができる。
しかし、最初にpomdpを学び、それを解決しようとする2段階のアプローチは、データに最も適したモデルが計画に適さない可能性があるため、しばしば失敗する。
我々は新しい最適化目標を紹介します
(a)計画に無関係な観察であっても、高性能な政策と高品質な生成モデルの両方を生産し、
(b) 振り返りデータのみが利用可能である場合、医療において典型的なオフポリシー設定のバッチで実施する。
本研究は, 合成例と医学的意思決定問題に対するアプローチを実証する。
関連論文リスト
- What should be observed for optimal reward in POMDPs? [0.0]
POMDP M が与えられた場合、固定予算内で M の観測能力をどう変えるべきか。
位置戦略のみを考慮すると、一般には決定不可能であり、決定不可能であることを示す。
まず,Mのマルコフ決定過程の最適戦略と,SMTを用いたパラメータ合成に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-17T13:27:57Z) - CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in
Confounded Environments [5.979296454783688]
正確で堅牢な行動予測を行う上での大きな課題は、コンファウンディングの問題である。
部分的に観測可能なマルコフ決定プロセス(POMDP)は、これらと部分的に観測可能な意思決定問題をモデル化するための広く使われているフレームワークである。
本稿では,不測な共同設立変数による誤りを解消するために,「常時正規化決定された部分観測木」(AR-DESPOT)の因果的インフォームド拡張を提案する。
論文 参考訳(メタデータ) (2023-04-13T22:32:21Z) - Bridging POMDPs and Bayesian decision making for robust maintenance
planning under model uncertainty: An application to railway systems [0.7046417074932257]
利用可能なデータから直接,POMDP遷移と観測モデルパラメータを推定するフレームワークを提案する。
次に、推定分布を利用して、POMDP問題を定式化し、解決する。
我々は軌道資産の維持計画に我々のアプローチをうまく適用した。
論文 参考訳(メタデータ) (2022-12-15T16:09:47Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Off-policy Policy Evaluation For Sequential Decisions Under Unobserved
Confounding [33.58862183373374]
観測不能条件下でのOPE手法のロバスト性を評価する。
また,OPE法に偏りが強い場合も少ないことが示唆された。
最悪ケース境界の計算に有効な損失最小化手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T05:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。