論文の概要: Multi-echelon Supply Chains with Uncertain Seasonal Demands and Lead
Times Using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.04651v1
- Date: Wed, 12 Jan 2022 19:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-15 03:30:59.238812
- Title: Multi-echelon Supply Chains with Uncertain Seasonal Demands and Lead
Times Using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習による季節的需要とリードタイムの不確実性を有するマルチケロンサプライチェーン
- Authors: Julio C\'esar Alves and Geraldo Robson Mateus
- Abstract要約: 複数エキロン系サプライチェーンにおける生産計画と流通の問題に対処する。
問題の原因となる不確実な要求とリードタイムについて検討する。
シーケンシャルな意思決定の問題として、深層強化学習(Deep Reinforcement Learning)が考えられる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of production planning and distribution in
multi-echelon supply chains. We consider uncertain demands and lead times which
makes the problem stochastic and non-linear. A Markov Decision Process
formulation and a Non-linear Programming model are presented. As a sequential
decision-making problem, Deep Reinforcement Learning (RL) is a possible
solution approach. This type of technique has gained a lot of attention from
Artificial Intelligence and Optimization communities in recent years.
Considering the good results obtained with Deep RL approaches in different
areas there is a growing interest in applying them in problems from the
Operations Research field. We have used a Deep RL technique, namely Proximal
Policy Optimization (PPO2), to solve the problem considering uncertain, regular
and seasonal demands and constant or stochastic lead times. Experiments are
carried out in different scenarios to better assess the suitability of the
algorithm. An agent based on a linearized model is used as a baseline.
Experimental results indicate that PPO2 is a competitive and adequate tool for
this type of problem. PPO2 agent is better than baseline in all scenarios with
stochastic lead times (7.3-11.2%), regardless of whether demands are seasonal
or not. In scenarios with constant lead times, the PPO2 agent is better when
uncertain demands are non-seasonal (2.2-4.7%). The results show that the
greater the uncertainty of the scenario, the greater the viability of this type
of approach.
- Abstract(参考訳): 複数エキロン系サプライチェーンにおける生産計画と流通の問題に対処する。
問題を確率的かつ非線形にする不確実な要求とリードタイムについて検討する。
マルコフ決定過程の定式化と非線形計画モデルを提案する。
逐次的な意思決定問題として、深層強化学習(rl)は可能なソリューションアプローチである。
この種の技術は近年、人工知能と最適化コミュニティから多くの注目を集めている。
異なる分野におけるDeep RLアプローチによる良好な結果を考えると,運用研究分野の課題に応用することへの関心が高まっている。
我々は、不確実性、規則的、季節的要求、定常的、確率的リード時間を考慮するために、Deep RL技術、すなわちPPO2を用いている。
異なるシナリオで実験を行い、アルゴリズムの適合性をよりよく評価する。
線形化モデルに基づくエージェントをベースラインとして使用する。
実験の結果, PPO2はこの種の問題に対して, 競合的かつ適切なツールであることがわかった。
PPO2は、要求が季節的かどうかに関わらず、確率的リードタイム(7.3-11.2%)の全てのシナリオにおいてベースラインよりも優れている。
一定のリード時間を持つシナリオでは、不確実な要求がノンシーズン(2.2-4.7%)である場合、PPO2エージェントの方が優れている。
その結果、シナリオの不確実性が大きいほど、この種のアプローチの生存可能性が高くなることがわかった。
関連論文リスト
- A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Reinforcement Learning Approaches for the Orienteering Problem with
Stochastic and Dynamic Release Dates [7.691755449724637]
我々は、eコマースキャリアが直面しているシーケンシャルな意思決定問題について検討する。
目的は、サービス時間中に配信できるパーセルの数を最大化することです。
本稿では,政策関数近似(PFA)と価値関数近似(VFA)に基づく2つの学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-02T17:42:13Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z) - Interior Point Solving for LP-based prediction+optimisation [14.028706088791473]
線形プログラミングのインテリア・ポイント・ソルバで広く使われているような、より原理化された対数障壁項の使用について検討する。
我々の手法は、Willerらの最先端QPTL(Quadratic Programming Task Los)とElmachtoubとGrigasのSPOアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-10-26T23:05:21Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。