論文の概要: Online Inventory Problems: Beyond the i.i.d. Setting with Online Convex
Optimization
- arxiv url: http://arxiv.org/abs/2307.06048v1
- Date: Wed, 12 Jul 2023 10:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 13:29:55.557875
- Title: Online Inventory Problems: Beyond the i.i.d. Setting with Online Convex
Optimization
- Title(参考訳): オンラインインベントリ問題:オンライン凸最適化によるi.i.d.設定を超えて
- Authors: Massil Hihat, St\'ephane Ga\"iffas, Guillaume Garrigos, Simon Bussy
- Abstract要約: 管理者がその累積損失を最小限に抑えるため、管理者が部分的履歴情報に基づいて逐次補充決定を行う多製品在庫管理問題について検討する。
我々は,非I.d.要求問題やステートフル・ダイナミクスの問題に対して,証明可能な保証を有するオンラインアルゴリズムであるMaxCOSDを提案する。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study multi-product inventory control problems where a manager makes
sequential replenishment decisions based on partial historical information in
order to minimize its cumulative losses. Our motivation is to consider general
demands, losses and dynamics to go beyond standard models which usually rely on
newsvendor-type losses, fixed dynamics, and unrealistic i.i.d. demand
assumptions. We propose MaxCOSD, an online algorithm that has provable
guarantees even for problems with non-i.i.d. demands and stateful dynamics,
including for instance perishability. We consider what we call non-degeneracy
assumptions on the demand process, and argue that they are necessary to allow
learning.
- Abstract(参考訳): 本研究では,管理職が累積損失を最小限に抑えるために,部分的履歴情報に基づいて逐次補充決定を行う多製品在庫管理問題について検討する。
我々のモチベーションは、通常、ニュースベンダータイプの損失、固定力学、非現実的な需要仮定に依存する標準モデルを超える一般的な需要、損失、ダイナミクスを考えることである。
提案するオンラインアルゴリズムMaxCOSDは,例えばパーシビリティを含む,非ID要求やステートフルなダイナミクスの問題に対しても,証明可能な保証を持つ。
我々は、需要プロセスにおいて非退化仮説と呼ぶものを検討し、学習を許容するために必要なものであると主張する。
関連論文リスト
- A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Learning with Posterior Sampling for Revenue Management under Time-varying Demand [36.22276574805786]
価格設定項目やサービスによる収益を最大化するための収益管理問題について議論する。
この問題の1つの課題は、需要分布が未知であり、航空会社や小売業のような実際の応用において時間とともに変化することである。
論文 参考訳(メタデータ) (2024-05-08T09:28:26Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Learning an Inventory Control Policy with General Inventory Arrival
Dynamics [2.3715198714015893]
本稿では,一般的な到着ダイナミクスの存在下での在庫管理方針の学習と検証の問題に対処する。
我々の知る限りでは、これは任意の到着ダイナミクスまたは順序量の任意の下流後処理を扱う最初の作業である。
論文 参考訳(メタデータ) (2023-10-26T05:49:13Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Control of Dual-Sourcing Inventory Systems using Recurrent Neural
Networks [0.0]
提案したニューラルネットワークコントローラ(NNC)は、CPU時間の数分以内に、一般的に使用されるインスタンスのほぼ最適ポリシーを学習できることを示す。
我々の研究は、複雑で高次元の在庫動態を効率的に管理する新しい方法を開く。
論文 参考訳(メタデータ) (2022-01-16T19:44:06Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Uncertainty Quantification for Demand Prediction in Contextual Dynamic
Pricing [20.828160401904697]
本研究では,需要関数に対する精度の高い信頼区間構築の問題について検討する。
偏りのあるアプローチを開発し、偏りのある推定器の正規性を保証する。
論文 参考訳(メタデータ) (2020-03-16T04:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。