論文の概要: OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
- arxiv url: http://arxiv.org/abs/2409.13299v2
- Date: Tue, 31 Dec 2024 08:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 17:39:18.005953
- Title: OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
- Title(参考訳): OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
- Authors: Yooseok Lim, Sujee Lee,
- Abstract要約: オフライン逆RL(IRL)を実行するオフラインモデルに基づくガイド・リワード学習(OMG-RL)を導入する。
我々は,OMG-RLポリシーが学習報酬ネットワークだけでなく,活性化部分トロンボプラスチン時間(aPTT)においても肯定的に強化されていることを示した。
このアプローチはヘパリン服用問題だけでなく、一般のRLベースの薬物服用タスクにも広く利用することができる。
- 参考スコア(独自算出の注目度): 0.4998632546280975
- License:
- Abstract: Accurate medication dosing holds an important position in the overall patient therapeutic process. Therefore, much research has been conducted to develop optimal administration strategy based on Reinforcement learning (RL). However, Relying solely on a few explicitly defined reward functions makes it difficult to learn a treatment strategy that encompasses the diverse characteristics of various patients. Moreover, the multitude of drugs utilized in clinical practice makes it infeasible to construct a dedicated reward function for each medication. Here, we tried to develop a reward network that captures clinicians' therapeutic intentions, departing from explicit rewards, and to derive an optimal heparin dosing policy. In this study, we introduce Offline Model-based Guided Reward Learning (OMG-RL), which performs offline inverse RL (IRL). Through OMG-RL, we learn a parameterized reward function that captures the expert's intentions from limited data, thereby enhancing the agent's policy. We validate the proposed approach on the heparin dosing task. We show that OMG-RL policy is positively reinforced not only in terms of the learned reward network but also in activated partial thromboplastin time (aPTT), a key indicator for monitoring the effects of heparin. This means that the OMG-RL policy adequately reflects clinician's intentions. This approach can be widely utilized not only for the heparin dosing problem but also for RL-based medication dosing tasks in general.
- Abstract(参考訳): 正確な薬物服用は、全体の治療過程において重要な位置を占める。
そのため,Reinforcement Learning (RL) に基づく最適な管理戦略を開発するために,多くの研究がなされている。
しかし,いくつかの明確に定義された報酬関数のみを頼りにすることで,様々な患者の特徴を包含する治療戦略の習得が困難になる。
さらに, 臨床実践に多用される薬剤は, 各薬剤に専用の報酬機能を構築するのが困難である。
そこで我々は, 臨床医の治療意図を把握し, 明確な報酬から逸脱し, 最適なヘパリン服用方針を導出する報奨ネットワークを構築した。
本研究では,オフライン逆RL(IRL)を実現するオフラインモデルに基づくガイド・リワード学習(OMG-RL)を提案する。
OMG-RLを通して,限られたデータから専門家の意図を捉え,エージェントのポリシーを強化するパラメータ化報酬関数を学習する。
ヘパリン投与課題に対する提案手法の検証を行った。
我々は,OMG-RLポリシーが学習報酬ネットワークだけでなく,ヘパリンの効果をモニタリングするための重要な指標である活性化部分トロンボプラスチン時間(aPTT)においても肯定的に強化されていることを示す。
これは、OMG-RLポリシーが臨床医の意図を適切に反映していることを意味する。
このアプローチはヘパリン服用問題だけでなく、一般のRLベースの薬物服用タスクにも広く利用することができる。
関連論文リスト
- Development and Validation of Heparin Dosing Policies Using an Offline Reinforcement Learning Algorithm [0.7519918949973486]
本研究では,強化学習に基づくパーソナライズされたヘパリン投与ポリシーを提案する。
オフラインRL環境における分配エラーを最小限に抑えるため,バッチ制約ポリシを実装した。
本研究はヘパリン投与の実践を強化し、医学における高度な意思決定支援ツールの開発の前例を確立する。
論文 参考訳(メタデータ) (2024-09-24T05:20:38Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Reinforcement Learning For Survival, A Clinically Motivated Method For
Critically Ill Patients [0.0]
本稿では,重篤な患者に対する臨床的動機づけ型コントロール目標を提案する。
我々は,大規模なコホート実験を行い,臨床知識と整合した結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-17T00:06:09Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Trajectory Inspection: A Method for Iterative Clinician-Driven Design of
Reinforcement Learning Studies [5.5302127686575435]
モデルベースRL研究において,臨床医を反復的設計プロセスに組み込むための簡単なアプローチであるトラジェクトリ・インスペクション(trajectory inspection)を強調した。
モデルが予想外のアグレッシブな治療を推奨するか、あるいはその推奨から驚くほどポジティブな結果を期待するかを特定します。
論文 参考訳(メタデータ) (2020-10-08T22:03:01Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z) - Is Deep Reinforcement Learning Ready for Practical Applications in
Healthcare? A Sensitivity Analysis of Duel-DDQN for Hemodynamic Management in
Sepsis Patients [25.71979754918741]
ICU患者に対する血行動態安定化治療戦略に応用した最先端RLアルゴリズムの感度解析を行った。
入力機能,埋め込みモデルアーキテクチャ,時間離散化,報酬関数,ランダムシードに対する学習ポリシーの感度について検討する。
その結果,これらの設定が学習ポリシーに大きく影響し,RLエージェントの出力を解釈する際に注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2020-05-08T22:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。