論文の概要: Deep Reinforcement Learning for a Two-Echelon Supply Chain with Seasonal
Demand
- arxiv url: http://arxiv.org/abs/2204.09603v1
- Date: Wed, 20 Apr 2022 16:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:53:54.800157
- Title: Deep Reinforcement Learning for a Two-Echelon Supply Chain with Seasonal
Demand
- Title(参考訳): 季節需要をもつ2エキロン系サプライチェーンの深部強化学習
- Authors: Francesco Stranieri and Fabio Stella
- Abstract要約: 本稿では,サプライチェーンの在庫管理問題を解決するために,近年の強化学習と深層学習を活用している。
2つのエケロンのサプライチェーン環境の数学的定式化が与えられ、任意の数の倉庫や製品タイプを管理することができる。
深層強化学習アルゴリズムとインターフェースするオープンソースライブラリを開発し公開している。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper leverages recent developments in reinforcement learning and deep
learning to solve the supply chain inventory management problem, a complex
sequential decision-making problem consisting of determining the optimal
quantity of products to produce and ship to different warehouses over a given
time horizon. A mathematical formulation of the stochastic two-echelon supply
chain environment is given, which allows an arbitrary number of warehouses and
product types to be managed. Additionally, an open-source library that
interfaces with deep reinforcement learning algorithms is developed and made
publicly available for solving the inventory management problem. Performances
achieved by state-of-the-art deep reinforcement learning algorithms are
compared through a rich set of numerical experiments on synthetically generated
data. The experimental plan is designed and performed, including different
structures, topologies, demands, capacities, and costs of the supply chain.
Results show that the PPO algorithm adapts very well to different
characteristics of the environment. The VPG algorithm almost always converges
to a local maximum, even if it typically achieves an acceptable performance
level. Finally, A3C is the fastest algorithm, but just like the VPG, it never
achieves the best performance when compared to PPO. In conclusion, numerical
experiments show that deep reinforcement learning performs consistently better
than standard inventory management strategies, such as the static (s,
Q)-policy. Thus, it can be considered a practical and effective option for
solving real-world instances of the stochastic two-echelon supply chain
problem.
- Abstract(参考訳): 本稿では,近年の強化学習・深層学習の進歩を活かし,サプライチェーン在庫管理問題(サプライチェーン在庫管理問題)を解決した。
確率的な2つのエケロンサプライチェーン環境の数学的定式化が与えられ、任意の数の倉庫や製品タイプを管理することができる。
さらに、深層強化学習アルゴリズムとインターフェースするオープンソースライブラリを開発し、在庫管理問題を解決するために公開している。
最先端の深層強化学習アルゴリズムにより達成された性能は、合成データに対する豊富な数値実験によって比較される。
実験計画は、異なる構造、トポロジ、要求、能力、サプライチェーンのコストを含む設計および実行されている。
その結果,PPOアルゴリズムは環境の特性に非常によく適応していることがわかった。
VPGアルゴリズムはほとんど常に局所的な最大値に収束する。
最後に、A3Cは最速のアルゴリズムであるが、VPGと同様に、PPOと比較して最高のパフォーマンスを達成することはない。
その結果,深層強化学習は静的(s,q)-ポリシーのような標準在庫管理戦略よりも一貫して優れた結果が得られることがわかった。
したがって、確率的2ケロンサプライチェーン問題の現実のインスタンスを解決するための実用的かつ効果的な選択肢と考えることができる。
関連論文リスト
- Enhancing Supply Chain Visibility with Knowledge Graphs and Large Language Models [49.898152180805454]
本稿では,サプライチェーンの可視性を高めるために,知識グラフ(KG)と大規模言語モデル(LLM)を活用した新しいフレームワークを提案する。
我々のゼロショットLPM駆動アプローチは、様々な公共情報源からのサプライチェーン情報の抽出を自動化する。
NERとREタスクの精度が高く、複雑な多層供給ネットワークを理解する効果的なツールを提供する。
論文 参考訳(メタデータ) (2024-08-05T17:11:29Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - MARLIM: Multi-Agent Reinforcement Learning for Inventory Management [1.1470070927586016]
本稿では、在庫管理問題に対処するため、MARLIMと呼ばれる新しい強化学習フレームワークを提案する。
このコンテキスト内では、コントローラは単一のエージェントまたは複数のエージェントを介して協調的に開発される。
実データに関する数値実験は、従来のベースラインよりも強化学習法の利点を実証している。
論文 参考訳(メタデータ) (2023-08-03T09:31:45Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - Multi-Agent Reinforcement Learning with Shared Resources for Inventory
Management [62.23979094308932]
私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。
共有資源ゲーム(SRSG)としてこの問題を定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。
実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることが実証された。
論文 参考訳(メタデータ) (2022-12-15T09:35:54Z) - No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand
Distribution [48.27759561064771]
我々は[Cachon and Zipkin, 1999]で導入された2つのエケロンサプライチェーンモデルについて, 2つの異なる設定で検討する。
両設定の最適在庫決定に対する後悔と収束の両面において良好な保証を達成するアルゴリズムを設計する。
私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。
論文 参考訳(メタデータ) (2022-10-23T08:45:39Z) - A Multi-label Continual Learning Framework to Scale Deep Learning
Approaches for Packaging Equipment Monitoring [57.5099555438223]
連続シナリオにおけるマルチラベル分類を初めて研究した。
タスク数に関して対数的複雑性を持つ効率的なアプローチを提案する。
我々は,包装業界における実世界のマルチラベル予測問題に対するアプローチを検証した。
論文 参考訳(メタデータ) (2022-08-08T15:58:39Z) - Learning General Inventory Management Policy for Large Supply Chain
Network [2.4660652494309936]
本研究では,強化学習に基づく倉庫在庫管理アルゴリズムを提案する。
サプライチェーンシステムでは、製品数も小売業者数も大きい。
実データと人工データの両方に関する実験により、近似シミュレーションによるアルゴリズムが大規模なサプライチェーンネットワークをうまく処理できることが実証された。
論文 参考訳(メタデータ) (2022-04-28T09:43:47Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Reinforcement Learning for Multi-Product Multi-Node Inventory Management
in Supply Chains [17.260459603456745]
本稿では,サプライチェーンにおける多製品在庫管理への強化学習(RL)の適用について述べる。
実験の結果,提案手法は製品販売の最大化と商品の無駄を最小化する多目的報酬を処理可能であることが示された。
論文 参考訳(メタデータ) (2020-06-07T04:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。