論文の概要: Multi-Agent Reinforcement Learning for Intraday Operating Rooms Scheduling under Uncertainty
- arxiv url: http://arxiv.org/abs/2512.04918v1
- Date: Thu, 04 Dec 2025 15:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.253047
- Title: Multi-Agent Reinforcement Learning for Intraday Operating Rooms Scheduling under Uncertainty
- Title(参考訳): 不確実性を考慮した日内手術室スケジューリングのためのマルチエージェント強化学習
- Authors: Kailiang Liu, Ying Chen, Ralf Borndörfer, Thorsten Koch,
- Abstract要約: 日内手術のスケジューリングは、不確実性バランスのスループット、緊急および緊急の要求、遅延、シーケンス依存のセットアップ、残業時間における多目的決定問題である。
協調マルコフゲームとして問題を定式化し、各手術室が集中訓練と分散実行の訓練を行うエージェントであるマルチエージェント強化学習フレームワークを提案する。
すべてのエージェントは、リッチなシステム状態とアクションをマッピングするPPO(Proximal Policy Optimization)を通じてトレーニングされたポリシーを共有している。
- 参考スコア(独自算出の注目度): 4.5515292789901975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intraday surgical scheduling is a multi-objective decision problem under uncertainty-balancing elective throughput, urgent and emergency demand, delays, sequence-dependent setups, and overtime. We formulate the problem as a cooperative Markov game and propose a multi-agent reinforcement learning (MARL) framework in which each operating room (OR) is an agent trained with centralized training and decentralized execution. All agents share a policy trained via Proximal Policy Optimization (PPO), which maps rich system states to actions, while a within-epoch sequential assignment protocol constructs conflict-free joint schedules across ORs. A mixed-integer pre-schedule provides reference starting times for electives; we impose type-specific quadratic delay penalties relative to these references and a terminal overtime penalty, yielding a single reward that captures throughput, timeliness, and staff workload. In simulations reflecting a realistic hospital mix (six ORs, eight surgery types, random urgent and emergency arrivals), the learned policy outperforms six rule-based heuristics across seven metrics and three evaluation subsets, and, relative to an ex post MIP oracle, quantifies optimality gaps. Policy analytics reveal interpretable behavior-prioritizing emergencies, batching similar cases to reduce setups, and deferring lower-value electives. We also derive a suboptimality bound for the sequential decomposition under simplifying assumptions. We discuss limitations-including OR homogeneity and the omission of explicit staffing constraints-and outline extensions. Overall, the approach offers a practical, interpretable, and tunable data-driven complement to optimization for real-time OR scheduling.
- Abstract(参考訳): 日内手術スケジューリングは、不確実性バランシング選択スループット、緊急および緊急需要、遅延、シーケンス依存のセットアップ、残業時間における多目的決定問題である。
協調マルコフゲームとして問題を定式化し、各手術室(OR)が集中訓練と分散実行を訓練したエージェントであるマルチエージェント強化学習(MARL)フレームワークを提案する。
すべてのエージェントは、リッチなシステム状態とアクションをマッピングするPPO(Proximal Policy Optimization)を通じてトレーニングされたポリシーを共有している。
我々は、これらの参照に対してタイプ固有の2次遅延の罰則を課し、終末時罰を課し、スループット、タイムライン、スタッフのワークロードをキャプチャする1つの報酬を与える。
リアルな病院の混在を反映したシミュレーション(6 OR,8 種類の手術タイプ,ランダムな緊急時,緊急時,緊急時)において,学習方針は7つの指標と3つの評価サブセットで6つのルールベースのヒューリスティックを上回り,前回のMIPオラクルと比較して最適なギャップを定量化する。
ポリシー分析では、解釈可能な行動優先順位付けの緊急性、セットアップの削減のための類似したケースのバッチ化、低い値選択の遅延が明らかにされている。
また、仮定を単純化した逐次分解に対する準最適条件も導出する。
本稿では, OR の等質性を含む制約と, 明示的なスタッフ制約の省略, およびアウトライン拡張について論じる。
全体として、このアプローチはリアルタイムORスケジューリングのための最適化のための実用的な、解釈可能な、チューニング可能なデータ駆動補完を提供する。
関連論文リスト
- Multi-Action Self-Improvement for Neural Combinatorial Optimization [0.979731979071071]
自己改善モデルは、高品質なソリューションの生成と模倣によってポリシーを反復的に洗練する。
これらのアプローチは、複数のエージェントの協調に関わる問題の構造を活用できない。
共同マルチエージェント動作による自己改善を拡大する。
論文 参考訳(メタデータ) (2025-10-14T08:26:27Z) - Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Autoregressive Policy Optimization for Constrained Allocation Tasks [4.316765170255551]
本稿では,各エンティティのアロケーションを逐次サンプリングする自己回帰プロセスに基づく制約付きアロケーションタスクの新しい手法を提案する。
さらに, 逐次サンプリングによる初期バイアスに対処する新しい脱バイアス機構を提案する。
論文 参考訳(メタデータ) (2024-09-27T13:27:15Z) - Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。
勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文 参考訳(メタデータ) (2024-09-09T02:59:17Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement
Learning [6.003234406806134]
本研究では,連続的なアロケーションタスクに対するディリクレポリシを提案し,そのポリシー勾配のバイアスと分散を分析した。
ディリクレポリシはバイアスフリーであり,ガウス-ソフトマックスポリシよりもはるかに高速な収束と性能を提供することを示した。
実験の結果, 最適動作を規定し, 多出力電源システムの効率と持続可能性を向上させる可能性が示された。
論文 参考訳(メタデータ) (2022-01-20T20:41:04Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Verifiable Planning in Expected Reward Multichain MDPs [20.456052208569115]
エージェントの意思決定方針を導出する定常計画問題について検討する。
提案プログラムに対する最適解が、厳密な行動保証を伴う定常的な政策をもたらすことを証明した。
論文 参考訳(メタデータ) (2020-12-03T18:54:24Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。