論文の概要: OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
- arxiv url: http://arxiv.org/abs/2409.13299v2
- Date: Tue, 31 Dec 2024 08:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 17:39:18.005953
- Title: OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
- Title(参考訳): OMG-RL:Offline Model-based Guided Reward Learning for Heparin Treatment
- Authors: Yooseok Lim, Sujee Lee,
- Abstract要約: オフライン逆RL(IRL)を実行するオフラインモデルに基づくガイド・リワード学習(OMG-RL)を導入する。
我々は,OMG-RLポリシーが学習報酬ネットワークだけでなく,活性化部分トロンボプラスチン時間(aPTT)においても肯定的に強化されていることを示した。
このアプローチはヘパリン服用問題だけでなく、一般のRLベースの薬物服用タスクにも広く利用することができる。
- 参考スコア(独自算出の注目度): 0.4998632546280975
- License:
- Abstract: Accurate medication dosing holds an important position in the overall patient therapeutic process. Therefore, much research has been conducted to develop optimal administration strategy based on Reinforcement learning (RL). However, Relying solely on a few explicitly defined reward functions makes it difficult to learn a treatment strategy that encompasses the diverse characteristics of various patients. Moreover, the multitude of drugs utilized in clinical practice makes it infeasible to construct a dedicated reward function for each medication. Here, we tried to develop a reward network that captures clinicians' therapeutic intentions, departing from explicit rewards, and to derive an optimal heparin dosing policy. In this study, we introduce Offline Model-based Guided Reward Learning (OMG-RL), which performs offline inverse RL (IRL). Through OMG-RL, we learn a parameterized reward function that captures the expert's intentions from limited data, thereby enhancing the agent's policy. We validate the proposed approach on the heparin dosing task. We show that OMG-RL policy is positively reinforced not only in terms of the learned reward network but also in activated partial thromboplastin time (aPTT), a key indicator for monitoring the effects of heparin. This means that the OMG-RL policy adequately reflects clinician's intentions. This approach can be widely utilized not only for the heparin dosing problem but also for RL-based medication dosing tasks in general.
- Abstract(参考訳): 正確な薬物服用は、全体の治療過程において重要な位置を占める。
そのため,Reinforcement Learning (RL) に基づく最適な管理戦略を開発するために,多くの研究がなされている。
しかし,いくつかの明確に定義された報酬関数のみを頼りにすることで,様々な患者の特徴を包含する治療戦略の習得が困難になる。
さらに, 臨床実践に多用される薬剤は, 各薬剤に専用の報酬機能を構築するのが困難である。
そこで我々は, 臨床医の治療意図を把握し, 明確な報酬から逸脱し, 最適なヘパリン服用方針を導出する報奨ネットワークを構築した。
本研究では,オフライン逆RL(IRL)を実現するオフラインモデルに基づくガイド・リワード学習(OMG-RL)を提案する。
OMG-RLを通して,限られたデータから専門家の意図を捉え,エージェントのポリシーを強化するパラメータ化報酬関数を学習する。
ヘパリン投与課題に対する提案手法の検証を行った。
我々は,OMG-RLポリシーが学習報酬ネットワークだけでなく,ヘパリンの効果をモニタリングするための重要な指標である活性化部分トロンボプラスチン時間(aPTT)においても肯定的に強化されていることを示す。
これは、OMG-RLポリシーが臨床医の意図を適切に反映していることを意味する。
このアプローチはヘパリン服用問題だけでなく、一般のRLベースの薬物服用タスクにも広く利用することができる。
関連論文リスト
- Development and Validation of Heparin Dosing Policies Using an Offline Reinforcement Learning Algorithm [0.7519918949973486]
本研究では,強化学習に基づくパーソナライズされたヘパリン投与ポリシーを提案する。
オフラインRL環境における分配エラーを最小限に抑えるため,バッチ制約ポリシを実装した。
本研究はヘパリン投与の実践を強化し、医学における高度な意思決定支援ツールの開発の前例を確立する。
論文 参考訳(メタデータ) (2024-09-24T05:20:38Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications [3.770564448216192]
オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症治療最適化のための2つの現実的課題について広範な実験を行った。
本提案手法は, 様々な原則および臨床関連指標を用いて, 期待される健康影響を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-02-15T09:30:57Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Reinforcement Learning For Survival, A Clinically Motivated Method For
Critically Ill Patients [0.0]
本稿では,重篤な患者に対する臨床的動機づけ型コントロール目標を提案する。
我々は,大規模なコホート実験を行い,臨床知識と整合した結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-17T00:06:09Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement learning and Bayesian data assimilation for model-informed
precision dosing in oncology [0.0]
現在の戦略はモデルインフォームドドッキングテーブルで構成されている。
ベイジアンデータ同化と/または強化学習を併用したMIPDのための新しい3つのアプローチを提案する。
これらのアプローチは、致命的グレード4と治療下グレード0のニュートロピーの発生を著しく減少させる可能性がある。
論文 参考訳(メタデータ) (2020-06-01T16:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。