論文の概要: Debiasing In-Sample Policy Performance for Small-Data, Large-Scale
Optimization
- arxiv url: http://arxiv.org/abs/2107.12438v2
- Date: Wed, 28 Jul 2021 15:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 10:54:24.136235
- Title: Debiasing In-Sample Policy Performance for Small-Data, Large-Scale
Optimization
- Title(参考訳): 小型大規模最適化のためのサンプル内ポリシ性能の劣化
- Authors: Vishal Gupta, Michael Huang, Paat Rusmevichientong
- Abstract要約: 本稿では,データ駆動最適化におけるポリシのアウト・オブ・サンプル性能の新たな推定法を提案する。
クロスバリデーションとは異なり、我々の手法はテストセットのデータを犠牲にするのを避ける。
我々は,小規模・大規模システムにおける推定器の性能を実証する。
- 参考スコア(独自算出の注目度): 4.554894288663752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the poor performance of cross-validation in settings where data
are scarce, we propose a novel estimator of the out-of-sample performance of a
policy in data-driven optimization.Our approach exploits the optimization
problem's sensitivity analysis to estimate the gradient of the optimal
objective value with respect to the amount of noise in the data and uses the
estimated gradient to debias the policy's in-sample performance. Unlike
cross-validation techniques, our approach avoids sacrificing data for a test
set, utilizes all data when training and, hence, is well-suited to settings
where data are scarce. We prove bounds on the bias and variance of our
estimator for optimization problems with uncertain linear objectives but known,
potentially non-convex, feasible regions. For more specialized optimization
problems where the feasible region is "weakly-coupled" in a certain sense, we
prove stronger results. Specifically, we provide explicit high-probability
bounds on the error of our estimator that hold uniformly over a policy class
and depends on the problem's dimension and policy class's complexity. Our
bounds show that under mild conditions, the error of our estimator vanishes as
the dimension of the optimization problem grows, even if the amount of
available data remains small and constant. Said differently, we prove our
estimator performs well in the small-data, large-scale regime. Finally, we
numerically compare our proposed method to state-of-the-art approaches through
a case-study on dispatching emergency medical response services using real
data. Our method provides more accurate estimates of out-of-sample performance
and learns better-performing policies.
- Abstract(参考訳): そこで本研究では,データ駆動最適化におけるポリシのアウト・オブ・サンプル性能の新たな推定手法を提案し,データ中のノイズ量に対する最適目標値の勾配を推定するために最適化問題の感度分析を活用し,推定勾配を用いて,ポリシのイン・サンプル性能を劣化させる手法を提案する。
クロスバリデーション技術とは異なり、このアプローチはテストセットのデータを犠牲にせず、トレーニング時にすべてのデータを活用するため、データが不足している設定に適しています。
我々は不確実な線形目的を持つ最適化問題に対する推定器のバイアスとばらつきの有界性を証明した。
ある意味で、実現可能な領域が「弱結合」されたより特殊な最適化問題に対して、より強い結果が証明される。
具体的には、政策クラスを均一に保持し、問題の次元と政策クラスの複雑さに依存する推定器の誤差に、明らかな高確率境界を提供する。
我々の限界は, 利用可能なデータの量が小さく一定であっても, 最適化問題の次元が大きくなるにつれて, 推定器の誤差が消えることを示している。
異なる言い方をすれば、我々の推定器は、小規模で大規模なシステムでよく機能する。
最後に,提案手法と最先端手法を,実データを用いた緊急医療サービス提供のケーススタディを通じて数値的に比較する。
提案手法は, サンプル外性能をより正確に推定し, より良い性能のポリシーを学習する。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Data-Driven Estimation of Conditional Expectations, Application to Optimal Stopping and Reinforcement Learning [2.1756081703276]
所望の条件予測を直接推定する,単純で純粋にデータ駆動の手法を提案する。
条件付き予測は、対応する最適解を用いた多くの最適化問題の記述に現れるため、データ駆動方式も適用範囲を広げる。
強化学習における最適停止・最適行動政策に適用して方法論を検証した。
論文 参考訳(メタデータ) (2024-07-18T05:57:30Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - A Finite-Horizon Approach to Active Level Set Estimation [0.7366405857677227]
レベルセット推定(LSE)における空間サンプリングの文脈におけるアクティブラーニングの問題点について考察する。
1次元でLSEを行うための有限水平探索法を提案するが、最終的な推定誤差と一定数のサンプルの移動距離のバランスは最適である。
結果の最適化問題をクローズドな方法で解き、その結果のポリシーが既存のアプローチを一般化することを示す。
論文 参考訳(メタデータ) (2023-10-18T14:11:41Z) - Optimize-via-Predict: Realizing out-of-sample optimality in data-driven
optimization [0.0]
本稿では,データ駆動最適化の定式化について検討する。
我々は、規範的なソリューションを、そのようなデータセットを意思決定にマッピングする意思決定者ルールとして定義する。
本稿では,このようなサンプル外最適解に対して,サンプリングアルゴリズムと2分割探索アルゴリズムを組み合わせることで効率よく解ける最適化問題を提案する。
論文 参考訳(メタデータ) (2023-09-20T08:48:50Z) - Optimizer's Information Criterion: Dissecting and Correcting Bias in Data-Driven Optimization [16.57676001669012]
データ駆動最適化では、得られた決定のサンプル性能は通常、真の性能に対して楽観的なバイアスを生じさせる。
クロスバリデーションのような、このバイアスを修正するための一般的なテクニックは、追加の最適化問題を繰り返し解決する必要があるため、コストがかかる。
我々は一階偏差を直接近似する一般バイアス補正手法を開発し、追加の最適化問題を解く必要はない。
論文 参考訳(メタデータ) (2023-06-16T07:07:58Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。