論文の概要: No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand
Distribution
- arxiv url: http://arxiv.org/abs/2210.12663v1
- Date: Sun, 23 Oct 2022 08:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 21:36:20.520865
- Title: No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand
Distribution
- Title(参考訳): 需要分布が不明な2ケロンサプライチェーンにおける非回帰学習
- Authors: Mengxiao Zhang, Shi Chen, Haipeng Luo, Yingfei Wang
- Abstract要約: 我々は[Cachon and Zipkin, 1999]で導入された2つのエケロンサプライチェーンモデルについて, 2つの異なる設定で検討する。
両設定の最適在庫決定に対する後悔と収束の両面において良好な保証を達成するアルゴリズムを設計する。
私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。
- 参考スコア(独自算出の注目度): 38.53971141361587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supply chain management (SCM) has been recognized as an important discipline
with applications to many industries, where the two-echelon stochastic
inventory model, involving one downstream retailer and one upstream supplier,
plays a fundamental role for developing firms' SCM strategies. In this work, we
aim at designing online learning algorithms for this problem with an unknown
demand distribution, which brings distinct features as compared to classic
online optimization problems. Specifically, we consider the two-echelon supply
chain model introduced in [Cachon and Zipkin, 1999] under two different
settings: the centralized setting, where a planner decides both agents'
strategy simultaneously, and the decentralized setting, where two agents decide
their strategy independently and selfishly. We design algorithms that achieve
favorable guarantees for both regret and convergence to the optimal inventory
decision in both settings, and additionally for individual regret in the
decentralized setting. Our algorithms are based on Online Gradient Descent and
Online Newton Step, together with several new ingredients specifically designed
for our problem. We also implement our algorithms and show their empirical
effectiveness.
- Abstract(参考訳): サプライチェーン管理(SCM)は、下流の小売業者1社と上流のサプライヤ1社を含む2エキロン確率的在庫モデルが、開発企業のSCM戦略に不可欠な役割を担っている多くの産業に適用するための重要な分野として認識されている。
本研究では,従来のオンライン最適化問題と比較して,要求分布が不明なオンライン学習アルゴリズムを設計することを目的としている。
具体的には、[Cachon and Zipkin, 1999]で導入された2つのエケロン・サプライチェーンモデルについて、プランナーが両方のエージェントの戦略を同時に決定する集中型設定と、2人のエージェントが独立して自己中心的に戦略を決定する分散型設定の2つの異なる設定で考察する。
我々は,後悔と収束を両設定の最適在庫決定に有利に保証し,さらに個別の後悔を分散的に設定するアルゴリズムを設計した。
私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。
また,アルゴリズムを実装し,経験的効果を示す。
関連論文リスト
- On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply
Chains [1.4685355149711299]
我々は、サプライチェーン在庫管理問題を解決するための最先端の深層強化学習アルゴリズムの性能を分析し、比較する。
本研究では,サプライチェーンの在庫管理問題を解決するためのカスタマイズ可能な環境を提供するオープンソースソフトウェアライブラリの設計と開発について,詳細な知見を提供する。
論文 参考訳(メタデータ) (2022-04-20T16:33:01Z) - Off-line approximate dynamic programming for the vehicle routing problem
with stochastic customers and demands via decentralized decision-making [0.0]
本稿では,顧客の位置と需要が不確実な車両経路問題(VRP)の変種について検討する。
目的は、車両の容量と時間制限を満たしながら、提供された要求を最大化することである。
本稿では,Replay MemoryやDouble Q Networkといった最先端のアクセラレーション技術を用いたQラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-21T14:28:09Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - The Best of Many Worlds: Dual Mirror Descent for Online Allocation
Problems [7.433931244705934]
本稿では,意思決定者に対して未知の入力モデルを用いて,各要求に対する報酬とリソース消費を生成するデータ駆動型設定について考察する。
様々な入力モデルにおいて,どの入力に直面するかを知ることなく,優れた性能が得られるアルゴリズムの一般クラスを設計する。
我々のアルゴリズムはラグランジアン双対空間で動作し、オンラインミラー降下を用いて更新される各リソースに対して双対乗算器を保持する。
論文 参考訳(メタデータ) (2020-11-18T18:39:17Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Solving the Order Batching and Sequencing Problem using Deep
Reinforcement Learning [2.4565068569913384]
本稿では,注文数を最小限に抑えるため,倉庫内で注文のバッチ化と選択のタイミングを決定するために,Deep Reinforcement Learning (DRL) アプローチを提案する。
特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、または、他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかを判断することを容易にする。
論文 参考訳(メタデータ) (2020-06-16T20:40:41Z) - Simultaneous Decision Making for Stochastic Multi-echelon Inventory
Optimization with Deep Neural Networks as Decision Makers [0.7614628596146599]
本稿では、ディープニューラルネットワーク(DNN)を用いて、複雑なマルチエケロンサプライチェーンの在庫決定を最適化するフレームワークを提案する。
本手法は,組立ノードと配電ノードの両方を含む一般的なトポロジを含む,多種多様なサプライチェーンネットワークに適している。
論文 参考訳(メタデータ) (2020-06-10T02:02:52Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。