論文の概要: Model-based controlled learning of MDP policies with an application to
lost-sales inventory control
- arxiv url: http://arxiv.org/abs/2011.15122v1
- Date: Mon, 30 Nov 2020 18:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-06-06 21:52:01.388067
- Title: Model-based controlled learning of MDP policies with an application to
lost-sales inventory control
- Title(参考訳): mdpポリシーのモデルベース制御学習とロスサール在庫管理への応用
- Authors: Willem van Jaarsveld
- Abstract要約: 近年の文献では、ニューラルネットワークはサプライチェーンやロジスティクスにおいて、様々な動的モデルにわたって優れたMDPポリシーを表現できることが確認されている。
分散低減手法を取り入れたモデルベースアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent literature established that neural networks can represent good MDP
policies across a range of stochastic dynamic models in supply chain and
logistics. To overcome limitations of the model-free algorithms typically
employed to learn/find such neural network policies, a model-based algorithm is
proposed that incorporates variance reduction techniques. For the classical
lost sales inventory model, the algorithm learns neural network policies that
are superior to those learned using model-free algorithms, while also
outperforming heuristic benchmarks. The algorithm may be an interesting
candidate to apply to other stochastic dynamic problems in supply chain and
logistics.
- Abstract(参考訳): 近年の文献では、ニューラルネットワークはサプライチェーンとロジスティクスにおける様々な確率的力学モデルにまたがる優れたMDPポリシーを表現できることが確認されている。
このようなニューラルネットワークポリシーの学習・精算に使用されるモデルフリーアルゴリズムの限界を克服するために,分散低減手法を取り入れたモデルベースアルゴリズムを提案する。
従来の失われた販売在庫モデルでは、このアルゴリズムはモデルフリーのアルゴリズムで学んだものよりも優れたニューラルネットワークポリシーを学習し、ヒューリスティックなベンチマークも上回っている。
このアルゴリズムは、サプライチェーンとロジスティクスの他の確率的動的問題に適用する興味深い候補となるかもしれない。
関連論文リスト
- Structure-Informed Deep Reinforcement Learning for Inventory Management [8.697068617006964]
本稿では,古典的在庫管理問題に対するDeep Reinforcement Learningの適用について検討する。
我々はDirectBackpropに基づくDRLアルゴリズムをいくつかの基本的な在庫管理シナリオに適用する。
本稿では,我々の汎用DRL実装が,確立したベンチマークや分布に対して競争的に,あるいは性能的に優れていることを示す。
論文 参考訳(メタデータ) (2025-07-29T17:41:45Z) - Deep RL Dual Sourcing Inventory Management with Supply and Capacity Risk Awareness [4.583289433858458]
介入モデルを利用して大規模最適化問題に強化学習(RL)を効率的に適用する方法を検討する。
我々は,サプライチェーン最適化におけるマルチソース多周期在庫管理問題である,現実世界の挑戦的アプリケーションに対するアプローチを実証する。
論文 参考訳(メタデータ) (2025-07-19T02:44:45Z) - Classical and Deep Reinforcement Learning Inventory Control Policies for Pharmaceutical Supply Chains with Perishability and Non-Stationarity [1.0124625066746595]
本稿では, 医薬品サプライチェーンの在庫管理方針について検討し, パーシビリティ, 不確実性, 非定常需要といった課題に対処する。
当社は3つのポリシー--order-up-to(OUT)、予測在庫レベル(PIL)、深層強化学習(DRL)をベンチマークする。
論文 参考訳(メタデータ) (2025-01-18T22:40:33Z) - Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide [0.0]
現実世界の在庫管理における深層強化学習(DRL)の展開が課題となっている。
これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。
我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下での一般有能エージェント(GCAs)の訓練に対処する。
論文 参考訳(メタデータ) (2024-11-01T11:20:05Z) - Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints [9.293472255463454]
本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
論文 参考訳(メタデータ) (2023-04-18T05:45:09Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Tutorial on Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。
Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文 参考訳(メタデータ) (2022-09-19T14:09:07Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。