論文の概要: Adaptive Double-Booking Strategy for Outpatient Scheduling Using Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.07270v1
- Date: Sat, 07 Mar 2026 15:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.193305
- Title: Adaptive Double-Booking Strategy for Outpatient Scheduling Using Multi-Objective Reinforcement Learning
- Title(参考訳): 多目的強化学習を用いた外来予約のための適応型二重予約方式
- Authors: Ninda Nurseha Amalina, Heungjo An,
- Abstract要約: 本稿では,個別化されたno-show予測と強化学習を統合した適応型外来二重予約フレームワークを提案する。
提案するフレームワークは、単一書籍、ダブルブック、あるいは予約要求の拒否をいつ行うかを決定する。
- 参考スコア(独自算出の注目度): 0.3437656066916039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patient no-shows disrupt outpatient clinic operations, reduce productivity, and may delay necessary care. Clinics often adopt overbooking or double-booking to mitigate these effects. However, poorly calibrated policies can increase congestion and waiting times. Most existing methods rely on fixed heuristics and fail to adapt to real-time scheduling conditions or patient-specific no-show risk. To address these limitations, we propose an adaptive outpatient double-booking framework that integrates individualized no-show prediction with multi-objective reinforcement learning. The scheduling problem is formulated as a Markov decision process, and patient-level no-show probabilities estimated by a Multi-Head Attention Soft Random Forest model are incorporated in the reinforcement learning state. We develop a Multi-Policy Proximal Policy Optimization method equipped with a Multi-Policy Co-Evolution Mechanism. Under this mechanism, we propose a novel τ rule based on Kullback-Leibler divergence that enables selective knowledge transfer among behaviorally similar policies, improving convergence and expanding the diversity of trade-offs. In addition, SHapley Additive exPlanations is used to interpret both the predicted no-show risk and the agent's scheduling decisions. The proposed framework determines when to single-book, double-book, or reject appointment requests, providing a dynamic and data-driven alternative to conventional outpatient scheduling policies.
- Abstract(参考訳): 患者のノーショーは外来診療を妨害し、生産性を低下させ、必要なケアを遅らせる可能性がある。
診療所はしばしばオーバーブックやダブルブックを採用してこれらの効果を緩和する。
しかし、調整の不十分な政策は混雑と待機時間を増加させる可能性がある。
既存の方法の多くは固定的ヒューリスティックスに依存しており、リアルタイムのスケジューリング条件や患者固有のノーショーリスクに適応できない。
これらの制約に対処するために、個別化されたノーショー予測と多目的強化学習を統合した適応型外来二重予約フレームワークを提案する。
スケジュール問題はマルコフ決定プロセスとして定式化され、マルチヘッドアテンションソフトランダムフォレストモデルによって推定される患者レベルのノショー確率が強化学習状態に組み込まれている。
我々は,多目的共進化機構を備えた多目的ポリシー最適化手法を開発した。
本研究では,Kulback-Leibler分散に基づく新しいτ則を提案する。これは,行動に類似したポリシ間の選択的な知識伝達を可能にし,収束を改善し,トレードオフの多様性を拡大する。
さらに、SHapley Additive exPlanationsは、予測されたノーショーリスクとエージェントのスケジューリング決定の両方を解釈するために使用される。
提案フレームワークは, 単冊本, ダブルブック, あるいは予約要求を拒否するタイミングを判断し, 従来の外来予約方式に代わる動的でデータ駆動型の代替手段を提供する。
関連論文リスト
- Compositional Planning with Jumpy World Models [70.74595987225908]
我々は、事前訓練されたポリシーを構成するエージェントを時間的に拡張したアクションとして研究し、構成員だけでは解決できない複雑なタスクに対する解決を可能にする。
arXiv:2206.08736で導入された幾何学的ポリシー構成フレームワークをモチベーションとして,多段階力学の予測モデルを学習することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2026-02-23T09:22:21Z) - Multi-Agent Reinforcement Learning for Intraday Operating Rooms Scheduling under Uncertainty [4.5515292789901975]
日内手術のスケジューリングは、不確実性バランスのスループット、緊急および緊急の要求、遅延、シーケンス依存のセットアップ、残業時間における多目的決定問題である。
協調マルコフゲームとして問題を定式化し、各手術室が集中訓練と分散実行の訓練を行うエージェントであるマルチエージェント強化学習フレームワークを提案する。
すべてのエージェントは、リッチなシステム状態とアクションをマッピングするPPO(Proximal Policy Optimization)を通じてトレーニングされたポリシーを共有している。
論文 参考訳(メタデータ) (2025-12-04T15:47:08Z) - Power Constrained Nonstationary Bandits with Habituation and Recovery Dynamics [0.9699640804685629]
本稿では,ROGUEフレームワークに適したトンプソンサンプリングアルゴリズムを提案する。
次に、パーソナライゼーションと集団レベルの学習のバランスをとるために、確率的クリッピング手法を導入する。
マイクロランダム化試験を設計する研究者にとって、我々のフレームワークはパーソナライズと統計的妥当性のバランスをとるための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-11-04T19:46:42Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via
pT-Learning [2.0625936401496237]
モバイルヘルス(mHealth)技術の最近の進歩は、個人の健康状態を監視し、ジャスト・イン・タイムのパーソナライズされた介入を提供する効果的な方法を提供する。
mHealthテクノロジーの実用化は、最適な動的治療体制を学習する上で、既存の方法論に固有の課題を提起する。
本稿では,決定論的とスパース政策モデルの間で適応的に調整された最適条件を推定する近時学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T18:38:22Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Identifying Decision Points for Safe and Interpretable Reinforcement
Learning in Hypotension Treatment [24.010934215216142]
連続軌道をいくつかの解釈可能な決定点に圧縮する新しい枠組みを開発する。
我々は,高血圧患者データセットのコホートからレコメンデーションを作成するためのアプローチを適用した。
論文 参考訳(メタデータ) (2021-01-09T07:15:33Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。