論文の概要: Aligning Learning and Endogenous Decision-Making
- arxiv url: http://arxiv.org/abs/2507.00851v1
- Date: Tue, 01 Jul 2025 15:22:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.693187
- Title: Aligning Learning and Endogenous Decision-Making
- Title(参考訳): 学習の適応と内因性意思決定
- Authors: Rares Cristian, Pavithra Harsha, Georgia Perakis, Brian Quanz,
- Abstract要約: 内因性不確実性の下でエンド・ツー・エンドの手法を導入し、下流に気付くようにMLモデルを訓練する。
また、MLモデルの不確実性を考慮した頑健な最適化も導入する。
このロバストなアプローチが、データ関数として高い確率で、ほぼ最適決定をキャプチャできることを保証します。
- 参考スコア(独自算出の注目度): 5.84228364962637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many of the observations we make are biased by our decisions. For instance, the demand of items is impacted by the prices set, and online checkout choices are influenced by the assortments presented. The challenge in decision-making under this setting is the lack of counterfactual information, and the need to learn it instead. We introduce an end-to-end method under endogenous uncertainty to train ML models to be aware of their downstream, enabling their effective use in the decision-making stage. We further introduce a robust optimization variant that accounts for uncertainty in ML models -- specifically by constructing uncertainty sets over the space of ML models and optimizing actions to protect against worst-case predictions. We prove guarantees that this robust approach can capture near-optimal decisions with high probability as a function of data. Besides this, we also introduce a new class of two-stage stochastic optimization problems to the end-to-end learning framework that can now be addressed through our framework. Here, the first stage is an information-gathering problem to decide which random variable to poll and gain information about before making a second-stage decision based off of it. We present several computational experiments for pricing and inventory assortment/recommendation problems. We compare against existing methods in online learning/bandits/offline reinforcement learning and show our approach has consistent improved performance over these. Just as in the endogenous setting, the model's prediction also depends on the first-stage decision made. While this decision does not affect the random variable in this setting, it does affect the correct point forecast that should be made.
- Abstract(参考訳): 私たちが行う観察の多くは、私たちの決定に偏っている。
例えば、商品の需要は価格設定の影響を受け、オンラインチェックアウトの選択は提示される品目の影響を受けます。
この設定での意思決定の課題は、反ファクト情報の欠如と、その代わりにそれを学ぶ必要性である。
本研究では、内因性不確実性の下でエンド・ツー・エンド手法を導入し、機械学習モデルを下流に意識して訓練し、意思決定段階で効果的に活用できるようにする。
さらに、MLモデルにおける不確実性を考慮し、特にMLモデル空間上の不確実性セットを構築し、最悪の場合の予測から保護するためのアクションを最適化することで、堅牢な最適化のバリエーションを導入します。
このロバストなアプローチが、データ関数として高い確率で、ほぼ最適決定をキャプチャできることを保証します。
さらに、エンドツーエンドの学習フレームワークに2段階確率最適化の新たなクラスを導入しました。
ここで、第1段は、どのランダム変数をポーリングするかを決定し、それに基づいて第2段決定を行う前に情報を得る情報収集問題である。
価格と在庫配分/勧告問題に対するいくつかの計算実験について述べる。
オンライン学習/帯域/オフライン強化学習における既存の手法と比較し、我々のアプローチがこれらよりも一貫した性能改善を実現したことを示す。
内因性の設定と同様に、モデルの予測も第1段階の決定に依存する。
この決定は、この設定におけるランダム変数には影響しないが、正しいポイント予測に影響を及ぼす。
関連論文リスト
- A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。
最適化に基づく最適化手法であるMERITを導入する。
MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文 参考訳(メタデータ) (2025-06-23T19:59:30Z) - Online Decision-Focused Learning [63.83903681295497]
意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。
対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。
決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
論文 参考訳(メタデータ) (2025-05-19T10:40:30Z) - Sufficient Decision Proxies for Decision-Focused Learning [2.7143637678944454]
決定に焦点を当てた学習は、予測精度ではなく、決定品質が最大化されるような予測モデルを学ぶことを目的としている。
本稿では,いずれの仮定を用いても正当性を示す問題特性を初めて検討する。
本稿では,連続変数および離散変数の問題に対する実験における提案手法の有効性と,目的関数および制約における不確実性について述べる。
論文 参考訳(メタデータ) (2025-05-06T20:10:17Z) - Learning Solutions of Stochastic Optimization Problems with Bayesian Neural Networks [4.202961704179733]
多くの実世界の設定において、これらのパラメータのいくつかは未知または不確かである。
最近の研究は、利用可能なコンテキスト特徴を用いて未知のパラメータの値を予測することに焦点を当てている。
本稿では、不確実性ニューラルネットワーク(BNN)をモデル化し、この不確実性を数学的解法に伝達する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-06-05T09:11:46Z) - Overcoming Overconfidence for Active Learning [1.2776312584227847]
本稿では,アクティブな学習シナリオで発生する過信の問題に対処する2つの新しい手法を提案する。
1つ目はCross-Mix-and-Mix(CMaM)と呼ばれる拡張戦略で、限られたトレーニング分布を拡張してモデルを校正することを目的としている。
2つ目は Ranked Margin Sampling (RankedMS) という選択戦略である。
論文 参考訳(メタデータ) (2023-08-21T09:04:54Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Limitations of a proposed correction for slow drifts in decision
criterion [0.0]
ランダムドリフトからの系統的な更新を曖昧にするためのモデルに基づくアプローチを提案する。
提案手法は,決定基準におけるドリフトの潜航軌跡を正確に回復することを示す。
本結果は,生成過程の仮定を直接意思決定モデルに組み込むことの利点を強調した。
論文 参考訳(メタデータ) (2022-05-22T19:33:19Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Diffusion Approximations for a Class of Sequential Testing Problems [0.0]
私達は市場へ進水するプロダクトの最適の品揃えを選びたいと思う販売人の問題を研究します。
電子商取引における新興の慣行に触発されて、売り手はこれらの嗜好を学習するためにクラウド投票システムを利用することができると仮定する。
論文 参考訳(メタデータ) (2021-02-13T23:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。