論文の概要: Certified Inventory Control of Critical Resources
- arxiv url: http://arxiv.org/abs/2405.15105v1
- Date: Thu, 23 May 2024 23:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:38:12.565266
- Title: Certified Inventory Control of Critical Resources
- Title(参考訳): 臨界資源の認証在庫管理
- Authors: Ludvig Hult, Dave Zachariah, Petre Stoica,
- Abstract要約: 我々は、未知の需要プロセスにおいて、最小限の仮定で所定のサービスレベルを認証するデータ駆動注文ポリシーを提案する。
この方針は、あらゆるオンライン学習手法と統合行動を用いてこれを達成している。
- 参考スコア(独自算出の注目度): 11.074080383657453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inventory control is subject to service-level requirements, in which sufficient stock levels must be maintained despite an unknown demand. We propose a data-driven order policy that certifies any prescribed service level under minimal assumptions on the unknown demand process. The policy achieves this using any online learning method along with integral action. We further propose an inference method that is valid in finite samples. The properties and theoretical guarantees of the method are illustrated using both synthetic and real-world data.
- Abstract(参考訳): 在庫管理は、未知の要求にもかかわらず十分な在庫水準を維持する必要があるサービスレベルの要件に従わなければならない。
我々は、未知の需要プロセスにおいて、最小限の仮定で所定のサービスレベルを認証するデータ駆動注文ポリシーを提案する。
この方針は、あらゆるオンライン学習手法と統合行動を用いてこれを達成している。
さらに,有限標本に適用可能な推論手法を提案する。
この手法の特性と理論的保証は、合成データと実世界のデータの両方を用いて説明される。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Acquire Driving Scenarios Efficiently: A Framework for Prospective
Assessment of Cost-Optimal Scenario Acquisition [0.1999925939110439]
本稿では,シナリオ生成手法のコスト-最適利用の定量化手法を提案する。
到達可能な完全カバレッジ,品質基準,コストの予測を含むメタモデルに適合する手法を提案する。
論文 参考訳(メタデータ) (2023-07-21T15:26:08Z) - Online Inventory Problems: Beyond the i.i.d. Setting with Online Convex
Optimization [0.8602553195689513]
管理者がその累積損失を最小限に抑えるため、管理者が部分的履歴情報に基づいて逐次補充決定を行う多製品在庫管理問題について検討する。
我々は,非I.d.要求問題やステートフル・ダイナミクスの問題に対して,証明可能な保証を有するオンラインアルゴリズムであるMaxCOSDを提案する。
論文 参考訳(メタデータ) (2023-07-12T10:00:22Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Distillation of RL Policies with Formal Guarantees via Variational
Abstraction of Markov Decision Processes (Technical Report) [0.0]
我々は、強化学習(RL)を通して学んだ政策の文脈で、政策の単純化と検証の課題を考える。
未知の環境と学習された離散潜在モデルの間に新しい双シミュレーション境界を導出する。
本稿では、現状のRLを用いて得られたポリシーを用いて、ほぼ正しいバイシミュレーション保証を持つ離散潜在モデルを生成する変分オートエンコーダを効率的に訓練する方法を示す。
論文 参考訳(メタデータ) (2021-12-17T17:57:32Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。