論文の概要: Agent based modelling for continuously varying supply chains
- arxiv url: http://arxiv.org/abs/2312.15502v1
- Date: Sun, 24 Dec 2023 15:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:52:28.415884
- Title: Agent based modelling for continuously varying supply chains
- Title(参考訳): 連続的なサプライチェーンのエージェントベースモデリング
- Authors: Wan Wang, Haiyan Wang, Adam J.Sobey
- Abstract要約: 本稿では, エージェントが様々なサプライチェーン問題を制御できるかどうかを検討する。
最先端の強化学習(RL)アルゴリズムを2つ比較した。
結果は、バッチ環境で採用されるリーン戦略が、さまざまな製品を持つ環境で採用されている戦略と異なることを示している。
- 参考スコア(独自算出の注目度): 4.163948606359882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Problem definition: Supply chains are constantly evolving networks.
Reinforcement learning is increasingly proposed as a solution to provide
optimal control of these networks. Academic/practical: However, learning in
continuously varying environments remains a challenge in the reinforcement
learning literature.Methodology: This paper therefore seeks to address whether
agents can control varying supply chain problems, transferring learning between
environments that require different strategies and avoiding catastrophic
forgetting of tasks that have not been seen in a while. To evaluate this
approach, two state-of-the-art Reinforcement Learning (RL) algorithms are
compared: an actor-critic learner, Proximal Policy Optimisation(PPO), and a
Recurrent Proximal Policy Optimisation (RPPO), PPO with a Long Short-Term
Memory(LSTM) layer, which is showing popularity in online learning
environments. Results: First these methods are compared on six sets of
environments with varying degrees of stochasticity. The results show that more
lean strategies adopted in Batch environments are different from those adopted
in Stochastic environments with varying products. The methods are also compared
on various continuous supply chain scenarios, where the PPO agents are shown to
be able to adapt through continuous learning when the tasks are similar but
show more volatile performance when changing between the extreme tasks.
However, the RPPO, with an ability to remember histories, is able to overcome
this to some extent and takes on a more realistic strategy. Managerial
implications: Our results provide a new perspective on the continuously varying
supply chain, the cooperation and coordination of agents are crucial for
improving the overall performance in uncertain and semi-continuous
non-stationary supply chain environments without the need to retrain the
environment as the demand changes.
- Abstract(参考訳): 問題定義:サプライチェーンは常に進化するネットワークである。
強化学習は、これらのネットワークの最適制御を提供するソリューションとしてますます提案されている。
方法論: エージェントが様々なサプライチェーンの問題を制御できるかどうか, 異なる戦略を必要とする環境間の学習を伝達し, しばらくは見ていないタスクの破滅的な忘れを回避できるかどうかを考察する。
このアプローチを評価するために、アクター-批判学習者、近位政策最適化(ppo)、反復近位政策最適化(rppo)、長期短期記憶(lstm)層を有するppoの2つの最先端強化学習(rl)アルゴリズムを比較した。
結果: まず, 確率性の異なる6種類の環境において, これらの手法を比較した。
その結果,バッチ環境で採用されるリーン戦略は,製品によって異なる確率環境で採用されているものと異なることがわかった。
この方法は、ppoエージェントがタスクが類似している場合に継続的学習を通じて適応できることが示されるが、極端なタスク間で変化した場合により揮発的なパフォーマンスを示す、様々な継続的サプライチェーンシナリオでも比較される。
しかし、RPPOは歴史を記憶する能力があり、これをある程度克服し、より現実的な戦略を取ることができる。
管理的意味: 当社の結果は, 継続的なサプライチェーンに対する新たな視点を提供するとともに, 需要の変化に応じて環境を調整することなく, 不確実かつ半連続的なサプライチェーン環境における全体的な性能向上にエージェントの協力と調整が不可欠である。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Selective Uncertainty Propagation in Offline RL [28.324479520451195]
我々は、有限水平オフライン強化学習(RL)の設定を考察し、動的プログラミング(DP)アルゴリズムにおいて、任意のステップhでポリシーを学習することの難しさを動機としている。
本研究では, 分散シフトの難易度に適応する信頼区間構築のための, 選択的不確実性伝播というフレキシブルで汎用的な手法を開発した。
論文 参考訳(メタデータ) (2023-02-01T07:31:25Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Consolidation via Policy Information Regularization in Deep RL for
Multi-Agent Games [21.46148507577606]
本稿では,MADDPG(Multi-Agent Deep Deterministic Policy Gradient)強化学習アルゴリズムにおいて,学習ポリシの複雑さに関する情報理論的制約を導入する。
多エージェント協調型・競争型タスクの実験結果から,これらの環境における学習性能向上のための能力制限型アプローチがよい候補であることが示された。
論文 参考訳(メタデータ) (2020-11-23T16:28:27Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。