論文の概要: Deep Controlled Learning for Inventory Control
- arxiv url: http://arxiv.org/abs/2011.15122v7
- Date: Tue, 03 Jun 2025 13:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 18:00:36.374497
- Title: Deep Controlled Learning for Inventory Control
- Title(参考訳): インベントリ制御のための深層制御学習
- Authors: Tarkan Temizöz, Christina Imdahl, Remco Dijkman, Douniel Lamghari-Idrissi, Willem van Jaarsveld,
- Abstract要約: 在庫管理への深層強化学習(DRL)の適用は、新たな分野である。
従来のDRLアルゴリズムは、もともとゲームプレイングやロボティクスといった多様な分野向けに開発されたもので、在庫管理によって引き起こされる特定の課題には適していない。
本稿では,高数値問題を対象とした新しいDRLアルゴリズムであるDeep Learning (DCL)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of Deep Reinforcement Learning (DRL) to inventory management is an emerging field. However, traditional DRL algorithms, originally developed for diverse domains such as game-playing and robotics, may not be well-suited for the specific challenges posed by inventory management. Consequently, these algorithms often fail to outperform established heuristics; for instance, no existing DRL approach consistently surpasses the capped base-stock policy in lost sales inventory control. This highlights a critical gap in the practical application of DRL to inventory management: the highly stochastic nature of inventory problems requires tailored solutions. In response, we propose Deep Controlled Learning (DCL), a new DRL algorithm designed for highly stochastic problems. DCL is based on approximate policy iteration and incorporates an efficient simulation mechanism, combining Sequential Halving with Common Random Numbers. Our numerical studies demonstrate that DCL consistently outperforms state-of-the-art heuristics and DRL algorithms across various inventory settings, including lost sales, perishable inventory systems, and inventory systems with random lead times. DCL achieves lower average costs in all test cases while maintaining an optimality gap of no more than 0.2\%. Remarkably, this performance is achieved using the same hyperparameter set across all experiments, underscoring the robustness and generalizability of our approach. These findings contribute to the ongoing exploration of tailored DRL algorithms for inventory management, providing a foundation for further research and practical application in this area.
- Abstract(参考訳): 在庫管理への深層強化学習(DRL)の適用は、新たな分野である。
しかし、従来のDRLアルゴリズムはもともとゲームプレイングやロボティクスといった多様な分野向けに開発されたもので、在庫管理によって引き起こされる特定の課題には適していないかもしれない。
例えば、既存のDRLアプローチは、失われた販売在庫管理におけるキャップ付きベースストックポリシーを一貫して上回るものではない。
このことは、DRLの在庫管理への実践的応用における重要なギャップを浮き彫りにしている。
そこで本研究では,高度確率問題に対するDRLアルゴリズムであるDeep Controlled Learning (DCL)を提案する。
DCLは近似ポリシーの反復に基づいており、シークエンシャルハルビングと共通乱数を組み合わせた効率的なシミュレーション機構を組み込んでいる。
我々の数値的な研究により、DCLは、失った販売、分かりやすい在庫システム、無作為なリードタイムの在庫システムなど、さまざまな在庫設定において、最先端のヒューリスティックとDRLアルゴリズムを一貫して上回っていることが示される。
DCLは、すべてのテストケースにおいて平均コストを低くし、最適性ギャップを0.2\%以下に維持する。
注目すべきことに、この性能は全ての実験にまたがる同じハイパーパラメーターを用いて達成され、我々のアプローチの堅牢性と一般化性を強調している。
これらの知見は、在庫管理のための調整されたDRLアルゴリズムの探索の継続に寄与し、この分野におけるさらなる研究と実践の基盤となっている。
関連論文リスト
- Structure-Informed Deep Reinforcement Learning for Inventory Management [8.697068617006964]
本稿では,古典的在庫管理問題に対するDeep Reinforcement Learningの適用について検討する。
我々はDirectBackpropに基づくDRLアルゴリズムをいくつかの基本的な在庫管理シナリオに適用する。
本稿では,我々の汎用DRL実装が,確立したベンチマークや分布に対して競争的に,あるいは性能的に優れていることを示す。
論文 参考訳(メタデータ) (2025-07-29T17:41:45Z) - Deep RL Dual Sourcing Inventory Management with Supply and Capacity Risk Awareness [4.583289433858458]
介入モデルを利用して大規模最適化問題に強化学習(RL)を効率的に適用する方法を検討する。
我々は,サプライチェーン最適化におけるマルチソース多周期在庫管理問題である,現実世界の挑戦的アプリケーションに対するアプローチを実証する。
論文 参考訳(メタデータ) (2025-07-19T02:44:45Z) - Classical and Deep Reinforcement Learning Inventory Control Policies for Pharmaceutical Supply Chains with Perishability and Non-Stationarity [1.0124625066746595]
本稿では, 医薬品サプライチェーンの在庫管理方針について検討し, パーシビリティ, 不確実性, 非定常需要といった課題に対処する。
当社は3つのポリシー--order-up-to(OUT)、予測在庫レベル(PIL)、深層強化学習(DRL)をベンチマークする。
論文 参考訳(メタデータ) (2025-01-18T22:40:33Z) - Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide [0.0]
現実世界の在庫管理における深層強化学習(DRL)の展開が課題となっている。
これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。
我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下での一般有能エージェント(GCAs)の訓練に対処する。
論文 参考訳(メタデータ) (2024-11-01T11:20:05Z) - Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints [9.293472255463454]
本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
論文 参考訳(メタデータ) (2023-04-18T05:45:09Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Tutorial on Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。
Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文 参考訳(メタデータ) (2022-09-19T14:09:07Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。