論文の概要: Deep Inventory Management
- arxiv url: http://arxiv.org/abs/2210.03137v1
- Date: Thu, 6 Oct 2022 18:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 15:03:09.518213
- Title: Deep Inventory Management
- Title(参考訳): ディープインベントリマネジメント
- Authors: Dhruv Madeka, Kari Torkkola, Carson Eisenach, Dean Foster, Anna Luo
- Abstract要約: 本稿では,定期的な在庫管理システムを実現するための深層強化学習手法を提案する。
いくつかのポリシー学習アプローチが古典的ベースラインアプローチと競合するか、あるいは競争的であることを示す。
- 参考スコア(独自算出の注目度): 3.578617477295742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a Deep Reinforcement Learning approach to solving a periodic
review inventory control system with stochastic vendor lead times, lost sales,
correlated demand, and price matching. While this dynamic program has
historically been considered intractable, we show that several policy learning
approaches are competitive with or outperform classical baseline approaches. In
order to train these algorithms, we develop novel techniques to convert
historical data into a simulator. We also present a model-based reinforcement
learning procedure (Direct Backprop) to solve the dynamic periodic review
inventory control problem by constructing a differentiable simulator. Under a
variety of metrics Direct Backprop outperforms model-free RL and newsvendor
baselines, in both simulations and real-world deployments.
- Abstract(参考訳): 本稿では, 定期レビュー在庫管理システムを, 確率的ベンダーリードタイム, 損失販売, 相関需要, 価格整合で解くための深層強化学習手法を提案する。
この動的プログラムは歴史的に難易度が高いと考えられてきたが、いくつかのポリシー学習アプローチが古典的ベースラインアプローチと競合するか、性能を上回っていることを示す。
これらのアルゴリズムを訓練するために,過去のデータをシミュレータに変換する新しい手法を開発した。
また,モデルベース強化学習手順(direct backprop)を提案し,微分可能なシミュレータを構築し,動的周期的レビューインベントリ制御問題を解く。
さまざまな指標の下で、Direct Backpropは、シミュレーションと実世界のデプロイの両方において、モデルフリーのRLとニュースベンダーのベースラインを上回っている。
関連論文リスト
- Optimal Execution with Reinforcement Learning [0.4972323953932129]
本研究では,強化学習による最適実行戦略の開発について検討する。
本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
論文 参考訳(メタデータ) (2024-11-10T08:21:03Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Enhancing Polynomial Chaos Expansion Based Surrogate Modeling using a
Novel Probabilistic Transfer Learning Strategy [2.980666177064344]
ブラックボックスシミュレーションでは、非侵入型PCEは一連のシミュレーション応答評価を用いてサロゲートを構築することができる。
そこで我々は,類似のPCEサロゲート構築タスクを通じて得られた知識を新たなサロゲート構築タスクに転送することで,伝達学習を活用することを提案する。
論文 参考訳(メタデータ) (2023-12-07T19:16:42Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Commodities Trading through Deep Policy Gradient Methods [0.0]
商品取引問題を連続的な離散時間力学系として定式化する。
アクターベースとアクタークリティカルベースの2つのポリシーアルゴリズムが導入された。
先月末の天然ガス先物試験では、DRLモデルのシャープ比が買いと持ち株ベースラインと比較して83%高くなることが示されている。
論文 参考訳(メタデータ) (2023-08-10T17:21:12Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Counterfactual Learning of Stochastic Policies with Continuous Actions:
from Models to Offline Evaluation [41.21447375318793]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。
対実学習の最適化の側面が重要であることを実証的に示す。
実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-04-22T07:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。