論文の概要: A Minibatch-SGD-Based Learning Meta-Policy for Inventory Systems with Myopic Optimal Policy
- arxiv url: http://arxiv.org/abs/2408.16181v1
- Date: Thu, 29 Aug 2024 00:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 15:25:12.166046
- Title: A Minibatch-SGD-Based Learning Meta-Policy for Inventory Systems with Myopic Optimal Policy
- Title(参考訳): ミニバッチSGDに基づく光学的最適政策を用いたインベントリシステムのための学習メタポリシー
- Authors: Jiameng Lyu, Jinxing Xie, Shilin Yuan, Yuan Zhou,
- Abstract要約: 勾配降下(SGD)は多くの在庫管理問題を需要学習で解くのに有効であることが証明されている。
本稿では,新しいミニバッチSGDに基づくメタ政治を提案する。
- 参考スコア(独自算出の注目度): 5.948933796081856
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Stochastic gradient descent (SGD) has proven effective in solving many inventory control problems with demand learning. However, it often faces the pitfall of an infeasible target inventory level that is lower than the current inventory level. Several recent works (e.g., Huh and Rusmevichientong (2009), Shi et al.(2016)) are successful to resolve this issue in various inventory systems. However, their techniques are rather sophisticated and difficult to be applied to more complicated scenarios such as multi-product and multi-constraint inventory systems. In this paper, we address the infeasible-target-inventory-level issue from a new technical perspective -- we propose a novel minibatch-SGD-based meta-policy. Our meta-policy is flexible enough to be applied to a general inventory systems framework covering a wide range of inventory management problems with myopic clairvoyant optimal policy. By devising the optimal minibatch scheme, our meta-policy achieves a regret bound of $\mathcal{O}(\sqrt{T})$ for the general convex case and $\mathcal{O}(\log T)$ for the strongly convex case. To demonstrate the power and flexibility of our meta-policy, we apply it to three important inventory control problems: multi-product and multi-constraint systems, multi-echelon serial systems, and one-warehouse and multi-store systems by carefully designing application-specific subroutines.We also conduct extensive numerical experiments to demonstrate that our meta-policy enjoys competitive regret performance, high computational efficiency, and low variances among a wide range of applications.
- Abstract(参考訳): 確率勾配降下(SGD)は多くの在庫管理問題を需要学習で解くのに有効であることが証明されている。
しかし、しばしば現在の在庫水準よりも低い、実現不可能な目標在庫水準の落とし穴に直面します。
いくつかの最近の研究(2009年)、Huh and Rusmevichientong(2009年)、Shi et al(2016年)は、様々な在庫システムでこの問題を解決するのに成功している。
しかし、これらの手法は、多製品や多制約インベントリシステムのようなより複雑なシナリオに適用することは困難である。
本稿では、新しい技術的視点から、実用不可能な目標-発明レベル問題に対処し、新しいミニバッチ-SGDベースのメタ政治を提案する。
我々のメタ政治は、筋明快な最適政策による幅広い在庫管理問題をカバーする一般的な在庫管理システムフレームワークに適用できるほど柔軟である。
最適なミニバッチスキームを考案することにより、我々のメタポリティクスは、一般凸の場合で$\mathcal{O}(\sqrt{T})$、強凸の場合で$\mathcal{O}(\log T)$の後悔境界を達成する。
メタポリティクスのパワーと柔軟性を実証するために、アプリケーション固有のサブルーチンを慎重に設計し、マルチプロプライエタリ・マルチ制約システム、マルチエケロン・シリアルシステム、ワンウェアハウス・マルチストアシステムという3つの重要な在庫管理問題に適用した。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。
勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。
その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文 参考訳(メタデータ) (2024-09-25T17:56:02Z) - InvAgent: A Large Language Model based Multi-Agent System for Inventory Management in Supply Chains [0.0]
本研究では,大規模言語モデル (LLM) を用いて複数エージェントの在庫管理システムを管理する手法を提案する。
我々のモデルであるInvAgentはレジリエンスを高め、サプライチェーンネットワーク全体の効率を向上させる。
論文 参考訳(メタデータ) (2024-07-16T04:55:17Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Mirror Gradient: Towards Robust Multimodal Recommender Systems via
Exploring Flat Local Minima [54.06000767038741]
フラットローカルミニマの新しい視点からマルチモーダルリコメンデータシステムの解析を行う。
我々はミラーグラディエント(MG)と呼ばれる簡潔で効果的な勾配戦略を提案する。
提案したMGは、既存の堅牢なトレーニング手法を補完し、多様な高度なレコメンデーションモデルに容易に拡張できることが判明した。
論文 参考訳(メタデータ) (2024-02-17T12:27:30Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - A multilevel reinforcement learning framework for PDE based control [0.2538209532048867]
強化学習(RL)は制御問題を解くための有望な方法である。
モデルフリーなRLアルゴリズムは、サンプル非効率であり、最適な制御ポリシーを学ぶために、数百万のサンプルを必要としない何千ものサンプルを必要とする。
本稿では,粗いスケールの離散化に対応するサブレベルモデルを活用することで,コストの低減を図るため,マルチレベルRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T23:52:48Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。