論文の概要: COOL-MC: Verifying and Explaining RL Policies for Platelet Inventory Management
- arxiv url: http://arxiv.org/abs/2603.02396v1
- Date: Mon, 02 Mar 2026 21:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.548399
- Title: COOL-MC: Verifying and Explaining RL Policies for Platelet Inventory Management
- Title(参考訳): COOL-MC:血小板インベントリ管理のためのRLポリシの検証と説明
- Authors: Dennis Gross,
- Abstract要約: ハイエマらに触発された血小板在庫管理の訓練方針を検証し,説明する。
その結果、200段階の地平線内で、トレーニング済みの政策が2.9%のストックアウト確率と1.1%の在庫フル(潜在的洗浄)確率を達成することが示された。
このRLプレートレット在庫管理ポリシーの正式な検証と説明は、安全クリティカルな医療サプライチェーンドメインにおける透明性と監査可能な意思決定に対するCOOL-MCの価値を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Platelets expire within five days. Blood banks face uncertain daily demand and must balance ordering decisions between costly wastage from overstocking and life-threatening shortages from understocking. Reinforcement learning (RL) can learn effective ordering policies for this Markov decision process (MDP), but the resulting neural policies remain black boxes, hindering trust and adoption in safety-critical domains. We apply COOL-MC, a tool that combines RL with probabilistic model checking and explainable RL, to verify and explain a trained policy for the MDP on platelet inventory management inspired by Haijema et al. By constructing a policy-induced discrete-time Markov chain (which includes only the reachable states under the trained policy to reduce memory usage), we verify PCTL properties and provide feature-level explanations. Results show that the trained policy achieves a 2.9% stockout probability and a 1.1% inventory-full (potential wastage) probability within a 200-step horizon, primarily attends to the age distribution of inventory rather than other features such as day of week or pending orders. Action reachability analysis reveals that the policy employs a diverse replenishment strategy, with most order quantities reached quickly, while several are never selected. Counterfactual analysis shows that replacing medium-large orders with smaller ones leaves both safety probabilities nearly unchanged, indicating that these orders are placed in well-buffered inventory states. This first formal verification and explanation of an RL platelet inventory management policy demonstrates COOL-MC's value for transparent, auditable decision-making in safety-critical healthcare supply chain domains.
- Abstract(参考訳): 血小板は5日以内に消失する。
血液バンクは日々の不確実な需要に直面しており、コストのかかる減産と減産の減産と減産の減産の間の注文決定のバランスを取らなければならない。
強化学習(RL)は、このマルコフ決定プロセス(MDP)の効果的な順序付けポリシーを学ぶことができるが、結果として生じる神経ポリシーはブラックボックスのままであり、信頼と安全クリティカルドメインの採用を妨げる。
我々は,RLと確率論的モデルチェックと説明可能なRLを組み合わせたツールであるCOOL-MCを適用し,ハイエマらにインスパイアされた血小板在庫管理に関するMDPのトレーニング済みポリシーを検証・説明する。
その結果、200段階の地平線内において、トレーニングされた政策は在庫の2.9%の確率と1.1%の在庫フル(潜在的洗浄)確率を達成し、主に、平日や保留命令などの他の特徴よりも、在庫の年齢分布に寄与していることがわかった。
行動到達可能性分析は、ポリシーが様々な補充戦略を採用しており、ほとんどの順序は迅速に到達し、いくつかは選択されないことを示している。
カウンターファクチュアル分析では、中規模の注文を小さな注文に置き換えると、安全確率はほぼ変化せず、これらの注文が十分な在庫状態にあることを示している。
このRLプレートレット在庫管理ポリシーの最初の形式的検証と説明は、安全クリティカルな医療サプライチェーンドメインにおける透明性と監査可能な意思決定に対するCOOL-MCの価値を示している。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Formally Verifying and Explaining Sepsis Treatment Policies with COOL-MC [0.0]
COOL-MCは、訓練されたポリシーによって誘導される到達可能な状態空間のみを構築するモデルチェッカーである。
完全MDP解析が難解である場合でも、より小さな離散時間マルコフ連鎖を検証できる。
約17,000人の敗血症患者の記録から得られた指標であるICU-Sepsis MDPでCOOL-MCの能力を実証した。
論文 参考訳(メタデータ) (2026-02-16T06:37:34Z) - AI Agent Systems for Supply Chains: Structured Decision Prompts and Memory Retrieval [3.3703751888858675]
本研究では,大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) について,在庫管理への有望なアプローチとして検討する。
LLMベースのMASが最適順序付けポリシーを一貫して導出し、多様なサプライチェーンシナリオに適応できるかどうかは不明である。
論文 参考訳(メタデータ) (2026-02-05T10:35:00Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Structure-Informed Deep Reinforcement Learning for Inventory Management [8.697068617006964]
本稿では,古典的在庫管理問題に対するDeep Reinforcement Learningの適用について検討する。
我々はDirectBackpropに基づくDRLアルゴリズムをいくつかの基本的な在庫管理シナリオに適用する。
本稿では,我々の汎用DRL実装が,確立したベンチマークや分布に対して競争的に,あるいは性能的に優れていることを示す。
論文 参考訳(メタデータ) (2025-07-29T17:41:45Z) - Classical and Deep Reinforcement Learning Inventory Control Policies for Pharmaceutical Supply Chains with Perishability and Non-Stationarity [1.0124625066746595]
本稿では, 医薬品サプライチェーンの在庫管理方針について検討し, パーシビリティ, 不確実性, 非定常需要といった課題に対処する。
当社は3つのポリシー--order-up-to(OUT)、予測在庫レベル(PIL)、深層強化学習(DRL)をベンチマークする。
論文 参考訳(メタデータ) (2025-01-18T22:40:33Z) - Neural Coordination and Capacity Control for Inventory Management [4.533373101620897]
この論文は、キャパシティ制御機構のバックテストと、在庫管理のための深層強化学習の最近の進歩と相容れないキャパシティ制御機構のバックテストとバックテストとは何を意味するのかという質問に動機づけられている。
まず、Amazonのキャパシティ制限の1つの歴史的なサンプルパスしか持たないため、実世界のシナリオの空間をカバーする制約パスの分布からサンプリングする手法を提案する。
第2に,Madeka et al. 2022のExo-IDP(Exogenous Decision Process)の定式化を拡張して,定期レビュー在庫管理問題に留意し,一定の容量を示す。
論文 参考訳(メタデータ) (2024-09-24T16:23:10Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。