論文の概要: The Data-Driven Censored Newsvendor Problem
- arxiv url: http://arxiv.org/abs/2412.01763v2
- Date: Wed, 18 Dec 2024 22:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:28:00.561789
- Title: The Data-Driven Censored Newsvendor Problem
- Title(参考訳): データ駆動型検閲ニューズベンダー問題
- Authors: Chamsi Hssaine, Sean R. Sinclair,
- Abstract要約: 我々は,データ駆動型ニューズベンダー問題の検閲版について検討する。そこでは,意思決定者は,期待される過給と低給のコストを最小限に抑える順序付け量を選択する必要がある。
我々のゴールは、歴史的需要の検閲の程度が、この問題に対する学習アルゴリズムのパフォーマンスにどのように影響するかを理解することである。
我々は、歴史的需要検閲のレベルに適応する、自然なロバストなアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License:
- Abstract: We study a censored variant of the data-driven newsvendor problem, where the decision-maker must select an ordering quantity that minimizes expected overage and underage costs based only on offline censored sales data, rather than historical demand realizations. Our goal is to understand how the degree of historical demand censoring affects the performance of any learning algorithm for this problem. To isolate this impact, we adopt a distributionally robust optimization framework, evaluating policies according to their worst-case regret over an ambiguity set of distributions. This set is defined by the largest historical order quantity (the observable boundary of the dataset), and contains all distributions matching the true demand distribution up to this boundary, while allowing them to be arbitrary afterwards. We demonstrate a spectrum of achievability under demand censoring by deriving a natural necessary and sufficient condition under which vanishing regret is an achievable goal. In regimes in which it is not, we exactly characterize the information loss due to censoring: an insurmountable lower bound on the performance of any policy, even when the decision-maker has access to infinitely many demand samples. We then leverage these sharp characterizations to propose a natural robust algorithm that adapts to the historical level of demand censoring. We derive finite-sample guarantees for this algorithm across all possible censoring regimes and show its near-optimality with matching lower bounds (up to polylogarithmic factors). We moreover demonstrate its robust performance via extensive numerical experiments on both synthetic and real-world datasets.
- Abstract(参考訳): 我々は,データ駆動型ニューズベンダー問題において,過去の需要実現ではなく,オフラインの検閲された販売データのみに基づいて,予測過給と未成年コストを最小化する注文量を選択することを求める。
我々のゴールは、歴史的需要の検閲の程度が、この問題に対する学習アルゴリズムのパフォーマンスにどのように影響するかを理解することである。
この影響を分離するために、分布的に堅牢な最適化フレームワークを採用し、分布のあいまいさに対する最悪の後悔に基づいてポリシーを評価する。
この集合は、最大の歴史的順序量(データセットの観測可能な境界)で定義され、この境界まで真の需要分布と一致する全ての分布を含む。
本研究では, 要求検閲下での達成可能性のスペクトルを, 後悔を消すことが達成可能な目標である自然的かつ十分な条件を導出することによって示す。
検閲による情報損失は、たとえ意思決定者が無限に多くの需要サンプルにアクセスできたとしても、いかなる政策の実績にも及ばない低い限界である。
そして、これらの鋭い特徴を利用して、歴史的需要検閲のレベルに適応する自然な堅牢なアルゴリズムを提案する。
我々は、このアルゴリズムのすべての可能な検閲レギュレーションに対する有限サンプル保証を導出し、そのほぼ最適性を、一致した下界(多対数因子まで)で示す。
さらに、合成と実世界の両方のデータセットに関する広範な数値実験を通して、堅牢な性能を実証する。
関連論文リスト
- Private Optimal Inventory Policy Learning for Feature-based Newsvendor with Unknown Demand [13.594765018457904]
本稿では, f-differential privacy framework内で, プライバシ保護に最適な在庫ポリシーを推定するための新しいアプローチを提案する。
最適在庫推定のための畳み込み平滑化に基づくクリップ付き雑音勾配降下アルゴリズムを開発した。
提案手法は,コストを極端に増大させることなく,望ましいプライバシー保護を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-23T19:15:43Z) - Is Offline Decision Making Possible with Only Few Samples? Reliable
Decisions in Data-Starved Bandits via Trust Region Enhancement [25.68354404229254]
データスターブされた設定であっても、最適な設定と競合するポリシーを見つけることが可能であることを示す。
これは、少数のサンプルにのみ依存することで重要な決定をしなければならない設定において、信頼性の高い意思決定への道を開くものだ。
論文 参考訳(メタデータ) (2024-02-24T03:41:09Z) - From Contextual Data to Newsvendor Decisions: On the Actual Performance
of Data-Driven Algorithms [2.9603743540540357]
本研究では,過去のデータとの関連性と量が,データ駆動型ポリシーの性能に与える影響について検討する。
我々は,「密接な状況下で観察された過去の要求は,分布の密接な関係から生じると考える。
論文 参考訳(メタデータ) (2023-02-16T17:03:39Z) - Effective Dimension in Bandit Problems under Censorship [22.269565708490468]
検閲環境におけるマルチアームとコンテキストのバンディットの問題について検討する。
我々の目標は、非検閲環境向けに設計された古典的アルゴリズムの文脈における検閲による性能損失を推定することである。
論文 参考訳(メタデータ) (2023-02-14T09:03:35Z) - Mitigating Algorithmic Bias with Limited Annotations [65.060639928772]
機密属性が公開されていない場合、バイアスを軽減するために、トレーニングデータの小さな部分を手動でアノテートする必要がある。
本稿では,アルゴリズムバイアスの影響を最大限に排除するために,限定アノテーションを誘導する対話型フレームワークであるアクティブペナライゼーション・オブ・差別(APOD)を提案する。
APODは完全なアノテートバイアス緩和と同等のパフォーマンスを示しており、機密情報が制限された場合、APODが現実世界のアプリケーションに利益をもたらすことを実証している。
論文 参考訳(メタデータ) (2022-07-20T16:31:19Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Adaptive Data Debiasing through Bounded Exploration and Fairness [19.082622108240585]
アルゴリズム決定規則の訓練に使用される既存のデータセットのバイアスは、倫理的、社会的、経済的懸念を提起する。
本稿では,適応探索と有界探索により,これらのデータセットを逐次デバイアスするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-25T15:50:10Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - Privacy Preserving Recalibration under Domain Shift [119.21243107946555]
本稿では,差分プライバシー制約下での校正問題の性質を抽象化する枠組みを提案する。
また、新しいリカレーションアルゴリズム、精度温度スケーリングを設計し、プライベートデータセットの事前処理より優れています。
論文 参考訳(メタデータ) (2020-08-21T18:43:37Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。