論文の概要: Data-driven inventory management for new products: A warm-start and adjusted Dyna-$Q$ approach
- arxiv url: http://arxiv.org/abs/2501.08109v2
- Date: Wed, 15 Jan 2025 02:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:59.271354
- Title: Data-driven inventory management for new products: A warm-start and adjusted Dyna-$Q$ approach
- Title(参考訳): 新規製品におけるデータ駆動型在庫管理--温暖化と調整型Dyna-Q$アプローチ
- Authors: Xinye Qu, Longxiao Liu, Wenjie Huang,
- Abstract要約: 本稿では,新発売商品の在庫管理を行うための新しい強化学習アルゴリズムを提案する。
調整済みのDyna-$Q$は、Q$ラーニングと比較して平均的な日価を23.7%削減する。
- 参考スコア(独自算出の注目度): 1.8092671403632705
- License:
- Abstract: In this paper, we propose a novel reinforcement learning algorithm for inventory management of newly launched products with no or limited historical demand information. The algorithm follows the classic Dyna-$Q$ structure, balancing the model-based and model-free approaches, while accelerating the training process of Dyna-$Q$ and mitigating the model discrepancy generated by the model-based feedback. Warm-start information from the demand data of existing similar products can be incorporated into the algorithm to further stabilize the early-stage training and reduce the variance of the estimated optimal policy. Our approach is validated through a case study of bakery inventory management with real data. The adjusted Dyna-$Q$ shows up to a 23.7% reduction in average daily cost compared with $Q$-learning, and up to a 77.5% reduction in training time within the same horizon compared with classic Dyna-$Q$. By incorporating the warm-start information, it can be found that the adjusted Dyna-$Q$ has the lowest total cost, lowest variance in total cost, and relatively low shortage percentages among all the algorithms under a 30-day testing.
- Abstract(参考訳): 本稿では,新発売商品の在庫管理を行うための新しい強化学習アルゴリズムを提案する。
このアルゴリズムは古典的なDyna-$Q$構造に従い、モデルベースとモデルフリーのアプローチのバランスをとりながら、Dyna-$Q$のトレーニングプロセスを加速し、モデルベースフィードバックによって生成されたモデル不一致を緩和する。
既存の類似商品の需要データからのウォームスタート情報をアルゴリズムに組み込むことで、早期訓練をより安定させ、推定された最適方針のばらつきを低減することができる。
本手法は,実データを用いたパン屋の在庫管理を事例として検証した。
調整済みのDyna-$Q$は、Q$ラーニングと比較して平均的な1日平均コストを23.7%削減し、古典的なDyna-$Q$と比較して、同じ地平線内でのトレーニング時間を77.5%削減した。
ウォームスタート情報を組み込むことにより、調整済みのDyna-$Q$が、30日間の試験において、最も低い総コスト、低い総コストの分散、および全てのアルゴリズムの比較的低い不足率を有することが分かる。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Cost-Effective Retraining of Machine Learning Models [2.9461360639852914]
データが時間とともに変化するにつれて、そのパフォーマンスを維持するためには、機械学習(ML)モデルを再トレーニングすることが重要です。
これにより、再トレーニングの頻度が高過ぎると、不要な計算コストが発生し、再トレーニングが不十分になる。
本稿では,MLモデルをいつ再トレーニングするかを自動かつ費用対効果で決定するMLシステムを提案する。
論文 参考訳(メタデータ) (2023-10-06T13:02:29Z) - Train/Test-Time Adaptation with Retrieval [129.8579208970529]
Train/Test-Time Adaptation with Retrieval(rm T3AR$)を紹介します。
$rm T3AR$は、洗練された擬似ラベルと自己教師付きコントラスト目的関数を使用して、所定のモデルを下流タスクに適合させる。
検索モジュールのおかげで、ユーザまたはサービスプロバイダは、下流タスクのモデル適応を改善することができる。
論文 参考訳(メタデータ) (2023-03-25T02:44:57Z) - Deep Inventory Management [3.578617477295742]
本稿では,定期的な在庫管理システムを実現するための深層強化学習手法を提案する。
いくつかのポリシー学習アプローチが古典的ベースラインアプローチと競合するか、あるいは競争的であることを示す。
論文 参考訳(メタデータ) (2022-10-06T18:00:25Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Reinforced Deep Markov Models With Applications in Automatic Trading [0.0]
我々はReinforced Deep Markov Model(RDMM)というモデルに基づくRLアプローチを提案する。
RDMMは自動取引システムとして機能する強化学習アルゴリズムの望ましい特性を統合する。
テストの結果、RDMMはデータ効率が良く、最適な実行問題のベンチマークと比較すると、金銭的利益が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-09T12:46:30Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。