論文の概要: Asymptotically Optimal Regret for Black-Box Predict-then-Optimize
- arxiv url: http://arxiv.org/abs/2406.07866v1
- Date: Wed, 12 Jun 2024 04:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:25:01.739937
- Title: Asymptotically Optimal Regret for Black-Box Predict-then-Optimize
- Title(参考訳): ブラックボックス予測列最適化のための漸近的最適レグレット
- Authors: Samuel Tan, Peter I. Frazier,
- Abstract要約: 我々は,特別な構造を欠いた新たなブラックボックス予測最適化問題と,その行動から得られる報酬のみを観察する方法について検討した。
本稿では,経験的ソフトレグレット(ESR, Empirical Soft Regret)と呼ばれる新しい損失関数を提案する。
また、私たちのアプローチは、ニュースレコメンデーションやパーソナライズされた医療における現実の意思決定問題において、最先端のアルゴリズムよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 7.412445894287709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the predict-then-optimize paradigm for decision-making in which a practitioner (1) trains a supervised learning model on historical data of decisions, contexts, and rewards, and then (2) uses the resulting model to make future binary decisions for new contexts by finding the decision that maximizes the model's predicted reward. This approach is common in industry. Past analysis assumes that rewards are observed for all actions for all historical contexts, which is possible only in problems with special structure. Motivated by problems from ads targeting and recommender systems, we study new black-box predict-then-optimize problems that lack this special structure and where we only observe the reward from the action taken. We present a novel loss function, which we call Empirical Soft Regret (ESR), designed to significantly improve reward when used in training compared to classical accuracy-based metrics like mean-squared error. This loss function targets the regret achieved when taking a suboptimal decision; because the regret is generally not differentiable, we propose a differentiable "soft" regret term that allows the use of neural networks and other flexible machine learning models dependent on gradient-based training. In the particular case of paired data, we show theoretically that optimizing our loss function yields asymptotically optimal regret within the class of supervised learning models. We also show our approach significantly outperforms state-of-the-art algorithms on real-world decision-making problems in news recommendation and personalized healthcare compared to benchmark methods from contextual bandits and conditional average treatment effect estimation.
- Abstract(参考訳): 本研究では,(1) 実践者が決定・文脈・報酬の歴史的データに基づいて教師付き学習モデルを訓練し,(2) 得られたモデルを用いて,モデルが予測した報酬を最大化する決定を求めることによって,新たな文脈に対する将来の二項決定を行う,意思決定のための予測・最適化パラダイムを考察する。
このアプローチは業界では一般的です。
過去の分析では、報酬はすべての歴史的文脈に対する全ての行動に対して観察され、特別な構造を持つ問題でのみ可能であると仮定している。
広告ターゲティングとレコメンデーションシステムによる問題に触発され、この特別な構造を欠いたブラックボックス予測を最適化する新たな問題と、取るべき行動からのみ報酬を観察する方法について検討した。
平均二乗誤差のような古典的精度に基づく測定値と比較して、トレーニングで使用する場合の報酬を著しく改善するように設計された、経験的ソフトレグレット(Empirical Soft Regret, ESR)と呼ばれる新しい損失関数を提案する。
この損失関数は、最適下決定を下す際に達成された後悔を対象とし、この後悔は一般的には区別できないため、ニューラルネットワークやその他の勾配に基づくトレーニングに依存する柔軟な機械学習モデルの使用を可能にする、微分可能な「ソフト」後悔項を提案する。
ペアデータの場合, 損失関数の最適化は, 教師付き学習モデルのクラスにおいて漸近的に最適であることを示す。
また,本手法は,文脈的帯域と条件付き平均治療効果推定のベンチマーク手法と比較して,ニュースレコメンデーションやパーソナライズ医療における現実的な意思決定問題に対して,最先端のアルゴリズムよりも有意に優れていることを示す。
関連論文リスト
- Smart Predict-then-Optimize Method with Dependent Data: Risk Bounds and Calibration of Autoregression [7.369846475695131]
本稿では,決定段階における最適化問題を直接対象とする自己回帰型SPO手法を提案する。
我々は, 絶対損失と最小二乗損失と比較して, SPO+サロゲートの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-11-19T17:02:04Z) - Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。
大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。
また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-04T23:31:35Z) - Learning Solutions of Stochastic Optimization Problems with Bayesian Neural Networks [4.202961704179733]
多くの実世界の設定において、これらのパラメータのいくつかは未知または不確かである。
最近の研究は、利用可能なコンテキスト特徴を用いて未知のパラメータの値を予測することに焦点を当てている。
本稿では、不確実性ニューラルネットワーク(BNN)をモデル化し、この不確実性を数学的解法に伝達する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-06-05T09:11:46Z) - Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and
Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。
本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T01:32:06Z) - Robust Losses for Decision-Focused Learning [2.9652474178611405]
決定にフォーカスした学習は、最適下決定を行うことで後悔を最小限に抑えるために予測モデルを訓練することを目的としている。
経験的最適決定は期待された最適決定と大きく異なるため、経験的後悔は非効果的な代理となり得る。
より強固に予測された後悔を近似する3つの新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-10-06T15:45:10Z) - End-to-End Learning for Stochastic Optimization: A Bayesian Perspective [9.356870107137093]
最適化におけるエンド・ツー・エンド・ラーニングの原則的アプローチを開発する。
本稿では,標準エンドツーエンド学習アルゴリズムがベイズ解釈を認め,ベイズ後の行動地図を訓練することを示す。
次に、意思決定マップの学習のための新しいエンドツーエンド学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-07T05:55:45Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。