論文の概要: From Contextual Data to Newsvendor Decisions: On the Actual Performance
of Data-Driven Algorithms
- arxiv url: http://arxiv.org/abs/2302.08424v3
- Date: Thu, 27 Jul 2023 15:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 20:08:51.153980
- Title: From Contextual Data to Newsvendor Decisions: On the Actual Performance
of Data-Driven Algorithms
- Title(参考訳): 文脈データからニューズベンダー決定:データ駆動アルゴリズムの実際の性能について
- Authors: Omar Besbes, Will Ma, Omar Mouchtaki
- Abstract要約: 本研究では,過去のデータとの関連性と量が,データ駆動型ポリシーの性能に与える影響について検討する。
我々は,「密接な状況下で観察された過去の要求は,分布の密接な関係から生じると考える。
- 参考スコア(独自算出の注目度): 2.9603743540540357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore a framework for contextual decision-making to study
how the relevance and quantity of past data affects the performance of a
data-driven policy. We analyze a contextual Newsvendor problem in which a
decision-maker needs to trade-off between an underage and an overage cost in
the face of uncertain demand. We consider a setting in which past demands
observed under ``close by'' contexts come from close by distributions and
analyze the performance of data-driven algorithms through a notion of
context-dependent worst-case expected regret. We analyze the broad class of
Weighted Empirical Risk Minimization (WERM) policies which weigh past data
according to their similarity in the contextual space. This class includes
classical policies such as ERM, k-Nearest Neighbors and kernel-based policies.
Our main methodological contribution is to characterize exactly the worst-case
regret of any WERM policy on any given configuration of contexts. To the best
of our knowledge, this provides the first understanding of tight performance
guarantees in any contextual decision-making problem, with past literature
focusing on upper bounds via concentration inequalities. We instead take an
optimization approach, and isolate a structure in the Newsvendor loss function
that allows to reduce the infinite-dimensional optimization problem over
worst-case distributions to a simple line search.
This in turn allows us to unveil fundamental insights that were obfuscated by
previous general-purpose bounds. We characterize actual guaranteed performance
as a function of the contexts, as well as granular insights on the learning
curve of algorithms.
- Abstract(参考訳): 本研究では,過去データの関連性と量がどのようにデータ駆動型ポリシーの性能に影響するかを検討するために,文脈的意思決定の枠組みを検討する。
我々は、未成年者と未成年者とのトレードオフが必要な状況ニュースベンドル問題を分析し、不確定な需要に直面した。
我々は, ``close by'' の文脈で観察された過去の要求が分布によって近似し,データ駆動アルゴリズムの性能を文脈依存の最悪の場合の期待する後悔という概念を通して分析する。
我々は,過去のデータを文脈空間における類似性に応じて測定する,Weighted Empirical Risk Minimization(WERM)政策の幅広いクラスを分析した。
このクラスには、EMM、k-Nearest Neighbors、カーネルベースのポリシーなどの古典的なポリシーが含まれている。
我々の主要な方法論的貢献は、WERMポリシーの最悪の後悔を、特定のコンテキストの構成で正確に特徴づけることである。
我々の知る限りでは、過去の文献では濃度の不等式を通した上限に焦点をあてており、文脈的意思決定問題における厳密な性能保証に関する最初の理解を提供する。
代わりに最適化手法を採り、ニュースベンダー損失関数の構造を分離し、最悪の場合の分布に対する無限次元の最適化問題を単純な行探索に還元する。
これにより、以前の汎用的な境界によって難解な基本的な洞察が明らかにできます。
我々は、実際の保証された性能を文脈の関数として特徴付け、アルゴリズムの学習曲線に関する詳細な洞察を与える。
関連論文リスト
- Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [61.580419063416734]
最近の構造化学習手法のストリームは、様々な最適化問題に対する技術の実践的状態を改善している。
鍵となる考え方は、インスタンスを別々に扱うのではなく、インスタンス上の統計分布を利用することだ。
本稿では,最適化を容易にし,一般化誤差を改善するポリシを摂動することでリスクを円滑にする手法について検討する。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Online learning in bandits with predicted context [8.257280652461159]
エージェントがコンテキストの騒々しいバージョンにしかアクセスできない場合、コンテキスト的帯域幅の問題を考える。
この設定は、意思決定の真のコンテキストが守られない広範囲のアプリケーションによって動機付けられている。
本研究では,この設定において,軽度条件下でのサブ線形後悔保証を用いた最初のオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-26T02:33:54Z) - Robust Data-driven Prescriptiveness Optimization [4.792851066169871]
本稿では、古典的経験的リスク目標最小化に代えて、規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。
サンプル外データセットが様々な分散シフトを受ける場合の代替手法に対する結果のロバスト性を評価する。
論文 参考訳(メタデータ) (2023-06-09T14:56:06Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Contextual Model Aggregation for Fast and Robust Federated Learning in
Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。
既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。
そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T21:42:31Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。