論文の概要: VC Theory for Inventory Policies
- arxiv url: http://arxiv.org/abs/2404.11509v2
- Date: Sun, 7 Jul 2024 19:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 01:59:35.917913
- Title: VC Theory for Inventory Policies
- Title(参考訳): 発明政策のVC理論
- Authors: Yaqi Xie, Will Ma, Linwei Xin,
- Abstract要約: 我々は、いくつかのよく知られた在庫政策のクラスを学ぶための一般化保証を証明している。
コンテキストのない古典的な設定に焦点をあてるが、要求シーケンスの任意の分布が可能である。
本研究は,ブラックボックス学習機械にベースストックと在庫配置の概念を組み込むことが有用であることを示す。
- 参考スコア(独自算出の注目度): 7.71791422193777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in computational power and AI have increased interest in reinforcement learning approaches to inventory management. This paper provides a theoretical foundation for these approaches and investigates the benefits of restricting to policy structures that are well-established by inventory theory. In particular, we prove generalization guarantees for learning several well-known classes of inventory policies, including base-stock and (s, S) policies, by leveraging the celebrated Vapnik-Chervonenkis (VC) theory. We apply the Pseudo-dimension and Fat-shattering dimension from VC theory to determine the generalization error of inventory policies, that is, the difference between an inventory policy's performance on training data and its expected performance on unseen data. We focus on a classical setting without contexts, but allow for an arbitrary distribution over demand sequences and do not make any assumptions such as independence over time. We corroborate our supervised learning results using numerical simulations. Managerially, our theory and simulations translate to the following insights. First, there is a principle of ``learning less is more'' in inventory management: depending on the amount of data available, it may be beneficial to restrict oneself to a simpler, albeit suboptimal, class of inventory policies to minimize overfitting errors. Second, the number of parameters in a policy class may not be the correct measure of overfitting error: in fact, the class of policies defined by T time-varying base-stock levels exhibits a generalization error an order of magnitude lower than that of the two-parameter (s, S) policy class. Finally, our research suggests situations in which it could be beneficial to incorporate the concepts of base-stock and inventory position into black-box learning machines, instead of having these machines directly learn the order quantity actions.
- Abstract(参考訳): 計算能力とAIの進歩は、在庫管理に対する強化学習アプローチへの関心を高めている。
本稿では,これらのアプローチの理論的基盤を提供し,在庫理論によって確立された政策構造に制限を加えることの利点について考察する。
特に,有望なVapnik-Chervonenkis(VC)理論を活用することで,在庫政策や(s,S)政策など,よく知られたいくつかの在庫政策のクラスを学ぶための一般化保証を証明した。
本稿では,VC理論からPseudo-dimension と Fat-shattering の次元を適用し,在庫政策の一般化誤差,すなわちトレーニングデータにおける在庫政策のパフォーマンスと予期しないデータにおける期待性能の差を決定する。
我々は、コンテキストのない古典的な設定に重点を置いているが、要求シーケンス上の任意の分布を許容し、時間とともに独立性のような仮定は行わない。
数値シミュレーションを用いて教師付き学習結果の相関付けを行う。
管理面では、我々の理論とシミュレーションは以下の知見に変換される。
まず、在庫管理の‘より少ない学習’という原則があります。利用可能なデータの量によっては、過度に適合するエラーを最小限に抑えるために、よりシンプルで最適な在庫ポリシーのクラスに自分自身を制限することは有益かもしれません。
第二に、ポリシークラスにおけるパラメータの数は、過適合エラーの正しい尺度ではないかもしれない: 実際、T の時間変化ベースストックレベルによって定義されるポリシーのクラスは、一般化エラーを2パラメータ (s, S) ポリシークラスよりも桁違いに低い順序で示している。
最後に,本研究では,これらの機械が注文量を直接学習する代わりに,ベースストックと在庫位置の概念をブラックボックス学習マシンに組み込むことが有用であることを示唆している。
関連論文リスト
- Learning impartial policies for sequential counterfactual explanations
using Deep Reinforcement Learning [0.0]
近年,SCFの発見政策を学習し,拡張性を高めるための強化学習法が提案されている。
本研究では,特定の行動に対する偏見など,望ましくない特性を持つポリシーを生じるような既存手法の欠点を同定する。
この効果を緩和するために,分類器の出力確率を用いてより情報的な報酬を生成することを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:50:47Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Effect-Invariant Mechanisms for Policy Generalization [3.701112941066256]
不変条件分布を利用して、目に見えない環境をより一般化するモデルを学ぶことが提案されている。
効果不変性(英語版)と呼ばれる完全な不変性の緩和を導入し、ゼロショットポリシーの一般化には適切な仮定の下で十分であることを示す。
シミュレーションデータと移動体保健介入データセットを用いて実験結果を提示し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-06-19T14:50:24Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement
Learning [0.0]
我々は、Deep Reinforcement Learningの観点から、割引されたエピソードマルコフ決定プロセス(MDP)の政策勾配の推定バイアスを再考する。
主要な政策バイアスの1つは、州の分散シフトである。
このような状態分布シフトにもかかわらず、政策勾配推定バイアスは以下の3つの方法で低減できることを示す。
論文 参考訳(メタデータ) (2023-01-20T06:46:43Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。