論文の概要: medR: Reward Engineering for Clinical Offline Reinforcement Learning via Tri-Drive Potential Functions
- arxiv url: http://arxiv.org/abs/2602.03305v2
- Date: Wed, 04 Feb 2026 13:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.807897
- Title: medR: Reward Engineering for Clinical Offline Reinforcement Learning via Tri-Drive Potential Functions
- Title(参考訳): MedR:トライドライブ電位関数による臨床オフライン強化学習のためのリワードエンジニアリング
- Authors: Qianyi Xu, Gousia Habib, Feng Wu, Yanrui Du, Zhihui Chen, Swapnil Mishra, Dilruk Perera, Mengling Feng,
- Abstract要約: 強化学習(RL)は動的治療体制(DTR)を最適化するための強力なフレームワークを提供する
既存のアプローチは、様々な病理の一般化に失敗する手動信号に依存することが多い。
本稿では,Large Language Models (LLMs) を利用したオフライン報酬設計と検証のための自動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 27.420707144690102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) offers a powerful framework for optimizing dynamic treatment regimes (DTRs). However, clinical RL is fundamentally bottlenecked by reward engineering: the challenge of defining signals that safely and effectively guide policy learning in complex, sparse offline environments. Existing approaches often rely on manual heuristics that fail to generalize across diverse pathologies. To address this, we propose an automated pipeline leveraging Large Language Models (LLMs) for offline reward design and verification. We formulate the reward function using potential functions consisted of three core components: survival, confidence, and competence. We further introduce quantitative metrics to rigorously evaluate and select the optimal reward structure prior to deployment. By integrating LLM-driven domain knowledge, our framework automates the design of reward functions for specific diseases while significantly enhancing the performance of the resulting policies.
- Abstract(参考訳): 強化学習(RL)は動的治療体制(DTR)を最適化するための強力なフレームワークを提供する。
しかし、臨床RLは報酬工学(英語版)によって基本的にボトルネック化されており、複雑な、疎いオフライン環境での政策学習を安全かつ効果的に導くシグナルを定義することの課題である。
既存のアプローチは、様々な病理の一般化に失敗した手動のヒューリスティックに頼っていることが多い。
そこで本稿では,Large Language Models (LLM) を利用した自動パイプラインを提案する。
潜在機能を用いて報酬関数を定式化し, 生存, 自信, 能力の3つの要素からなる。
さらに、デプロイメント前に最適な報酬構造を厳格に評価し、選択するために定量的なメトリクスを導入します。
LLM駆動のドメイン知識を統合することにより、特定の疾患に対する報酬関数の設計を自動化し、その結果のポリシーの性能を大幅に向上させる。
関連論文リスト
- RLAF: Reinforcement Learning from Automaton Feedback [8.266016076430516]
複雑で歴史に依存した報酬構造を持つ環境における強化学習(RL)は、従来の手法に重大な課題をもたらす。
本稿では,学習プロセスの指導にオートマトンに基づくフィードバックを活用する新しいアプローチを提案し,決定論的有限オートマトン(DFA)から導出される選好に,明示的な報酬関数を置き換える。
本研究は,非マルコフ報酬の処理において,オートマトンに基づく選好の利点を強調し,従来の報酬モデルに代わる,スケーラブルで効率的で人間に依存しない代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-17T15:17:01Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。