論文の概要: OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
- arxiv url: http://arxiv.org/abs/2409.13299v1
- Date: Fri, 20 Sep 2024 07:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:51:11.320566
- Title: OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
- Title(参考訳): OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
- Authors: Yooseok Lim, Sujee Lee,
- Abstract要約: 本研究は,臨床医の意図を反映した報酬関数の開発に焦点をあてる。
限られたデータから専門家の意図を含むパラメータ化された報酬関数を学習する。
このアプローチはヘパリン服薬問題だけでなく、一般のRLベースの薬物服薬タスクにも広く利用することができる。
- 参考スコア(独自算出の注目度): 0.4998632546280975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate diagnosis of individual patient conditions and appropriate medication dosing strategies are core elements of personalized medical decision-making processes. This therapeutic procedure, which entails recursively assessing the patient's condition and administering suitable medications, can effectively be modeled as a reinforcement learning (RL) problem. Crucially, the success of RL in this context depends on the establishment of a well-defined reward function that accurately represents the optimal treatment strategy. However, defining the learning direction in RL with only a limited set of explicit indicators complicates the task due to the inherent complexity of the required domain knowledge. This approach may also increase the likelihood that the RL policy does not adequately reflect the clinician's treatment intentions, which are determined by considering various situations and indicators. In this study, we focus on developing a reward function that reflects the clinician's intentions and introduce Offline Model-based Guided Reward Learning (OMG-RL), which performs offline inverse reinforcement learning (IRL) aligned with the offline RL environment. Through OMG-RL, we learn a parameterized reward function that includes the expert's intentions from limited data, thereby enhancing the agent's policy. We validate the proposed approach on the heparin dosing task. The results demonstrate that policy learning through OMG-RL is meaningful and confirm that the learned policy is positively reinforced in terms of activated partial thromboplastin time (aPTT), a key indicator for monitoring the effects of heparin. This approach can be broadly utilized not only for the heparin dosing problem but also for RL-based medication dosing tasks in general.
- Abstract(参考訳): 個別の患者状況の正確な診断と適切な服薬戦略は、パーソナライズされた医療意思決定プロセスの中核的な要素である。
患者の状態を再帰的に評価し、適切な薬剤を投与する治療処置を、強化学習(RL)問題として効果的にモデル化することができる。
重要なことに、この文脈におけるRLの成功は、最適な治療戦略を正確に表現する、明確に定義された報酬関数の確立に依存している。
しかし、RLにおける学習方向を明示的な指標の限られたセットで定義することは、必要なドメイン知識の本質的な複雑さのためにタスクを複雑にする。
このアプローチはまた、RLポリシーが臨床医の治療意図を適切に反映していない可能性を高め、様々な状況や指標を考慮することで決定される。
本研究では,臨床医の意図を反映した報酬関数の開発に焦点をあて,オフラインRL環境に沿ったオフライン逆強化学習(IRL)を行うオフラインモデルに基づくガイド・リワード学習(OMG-RL)を導入する。
OMG-RLを通じて、限られたデータから専門家の意図を含むパラメータ化された報酬関数を学習し、エージェントのポリシーを強化する。
ヘパリン投与課題に対する提案手法の検証を行った。
その結果、OMG-RLによる政策学習は有意義であり、ヘパリンの効果をモニタリングするための重要な指標である活性化部分トロンボプラスチン時間(aPTT)において、学習方針が正に強化されていることが確認された。
このアプローチはヘパリン服薬問題だけでなく、一般のRLベースの薬物服薬タスクにも広く利用することができる。
関連論文リスト
- Development and Validation of Heparin Dosing Policies Using an Offline Reinforcement Learning Algorithm [0.7519918949973486]
本研究では,強化学習に基づくパーソナライズされたヘパリン投与ポリシーを提案する。
オフラインRL環境における分配エラーを最小限に抑えるため,バッチ制約ポリシを実装した。
本研究はヘパリン投与の実践を強化し、医学における高度な意思決定支援ツールの開発の前例を確立する。
論文 参考訳(メタデータ) (2024-09-24T05:20:38Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Reinforcement Learning For Survival, A Clinically Motivated Method For
Critically Ill Patients [0.0]
本稿では,重篤な患者に対する臨床的動機づけ型コントロール目標を提案する。
我々は,大規模なコホート実験を行い,臨床知識と整合した結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-17T00:06:09Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Trajectory Inspection: A Method for Iterative Clinician-Driven Design of
Reinforcement Learning Studies [5.5302127686575435]
モデルベースRL研究において,臨床医を反復的設計プロセスに組み込むための簡単なアプローチであるトラジェクトリ・インスペクション(trajectory inspection)を強調した。
モデルが予想外のアグレッシブな治療を推奨するか、あるいはその推奨から驚くほどポジティブな結果を期待するかを特定します。
論文 参考訳(メタデータ) (2020-10-08T22:03:01Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z) - Is Deep Reinforcement Learning Ready for Practical Applications in
Healthcare? A Sensitivity Analysis of Duel-DDQN for Hemodynamic Management in
Sepsis Patients [25.71979754918741]
ICU患者に対する血行動態安定化治療戦略に応用した最先端RLアルゴリズムの感度解析を行った。
入力機能,埋め込みモデルアーキテクチャ,時間離散化,報酬関数,ランダムシードに対する学習ポリシーの感度について検討する。
その結果,これらの設定が学習ポリシーに大きく影響し,RLエージェントの出力を解釈する際に注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2020-05-08T22:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。