論文の概要: Multi-echelon Supply Chains with Uncertain Seasonal Demands and Lead
Times Using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.04651v1
- Date: Wed, 12 Jan 2022 19:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-15 03:30:59.238812
- Title: Multi-echelon Supply Chains with Uncertain Seasonal Demands and Lead
Times Using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習による季節的需要とリードタイムの不確実性を有するマルチケロンサプライチェーン
- Authors: Julio C\'esar Alves and Geraldo Robson Mateus
- Abstract要約: 複数エキロン系サプライチェーンにおける生産計画と流通の問題に対処する。
問題の原因となる不確実な要求とリードタイムについて検討する。
シーケンシャルな意思決定の問題として、深層強化学習(Deep Reinforcement Learning)が考えられる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of production planning and distribution in
multi-echelon supply chains. We consider uncertain demands and lead times which
makes the problem stochastic and non-linear. A Markov Decision Process
formulation and a Non-linear Programming model are presented. As a sequential
decision-making problem, Deep Reinforcement Learning (RL) is a possible
solution approach. This type of technique has gained a lot of attention from
Artificial Intelligence and Optimization communities in recent years.
Considering the good results obtained with Deep RL approaches in different
areas there is a growing interest in applying them in problems from the
Operations Research field. We have used a Deep RL technique, namely Proximal
Policy Optimization (PPO2), to solve the problem considering uncertain, regular
and seasonal demands and constant or stochastic lead times. Experiments are
carried out in different scenarios to better assess the suitability of the
algorithm. An agent based on a linearized model is used as a baseline.
Experimental results indicate that PPO2 is a competitive and adequate tool for
this type of problem. PPO2 agent is better than baseline in all scenarios with
stochastic lead times (7.3-11.2%), regardless of whether demands are seasonal
or not. In scenarios with constant lead times, the PPO2 agent is better when
uncertain demands are non-seasonal (2.2-4.7%). The results show that the
greater the uncertainty of the scenario, the greater the viability of this type
of approach.
- Abstract(参考訳): 複数エキロン系サプライチェーンにおける生産計画と流通の問題に対処する。
問題を確率的かつ非線形にする不確実な要求とリードタイムについて検討する。
マルコフ決定過程の定式化と非線形計画モデルを提案する。
逐次的な意思決定問題として、深層強化学習(rl)は可能なソリューションアプローチである。
この種の技術は近年、人工知能と最適化コミュニティから多くの注目を集めている。
異なる分野におけるDeep RLアプローチによる良好な結果を考えると,運用研究分野の課題に応用することへの関心が高まっている。
我々は、不確実性、規則的、季節的要求、定常的、確率的リード時間を考慮するために、Deep RL技術、すなわちPPO2を用いている。
異なるシナリオで実験を行い、アルゴリズムの適合性をよりよく評価する。
線形化モデルに基づくエージェントをベースラインとして使用する。
実験の結果, PPO2はこの種の問題に対して, 競合的かつ適切なツールであることがわかった。
PPO2は、要求が季節的かどうかに関わらず、確率的リードタイム(7.3-11.2%)の全てのシナリオにおいてベースラインよりも優れている。
一定のリード時間を持つシナリオでは、不確実な要求がノンシーズン(2.2-4.7%)である場合、PPO2エージェントの方が優れている。
その結果、シナリオの不確実性が大きいほど、この種のアプローチの生存可能性が高くなることがわかった。
関連論文リスト
- Robust Offline Reinforcement Learning for Non-Markovian Decision Processes [48.9399496805422]
本研究では,ロバストな非マルコフRLの学習問題について検討する。
本研究では,不確実性セットの異なるタイプ下でのロバストな値に対して,新しいデータセット蒸留と低信頼境界(LCB)設計を導入する。
さらに、オフラインの低ランク非マルコフ決定プロセスに適した新しいI型集中係数を導入することにより、我々のアルゴリズムが$epsilon$-optimal robust policyを見つけることができることを証明した。
論文 参考訳(メタデータ) (2024-11-12T03:22:56Z) - Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment [15.273192037219077]
不整合決定周波数下での動的価格設定と補充問題について検討する。
我々は、包括的な市場データに基づいてトレーニングされた決定木に基づく機械学習アプローチを統合する。
このアプローチでは、2つのエージェントが価格と在庫を処理し、さまざまなスケールで更新される。
論文 参考訳(メタデータ) (2024-10-28T15:12:04Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Reinforcement Learning Approaches for the Orienteering Problem with Stochastic and Dynamic Release Dates [5.135929080521775]
我々は、eコマースキャリアが直面しているシーケンシャルな意思決定問題について検討する。
目的は、サービス時間中に配信される予定のパーセル数を最大化することです。
本稿では,この問題を解決するための2つの強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-02T17:42:13Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。