論文の概要: Contextual Preference Distribution Learning
- arxiv url: http://arxiv.org/abs/2603.17139v1
- Date: Tue, 17 Mar 2026 21:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.393882
- Title: Contextual Preference Distribution Learning
- Title(参考訳): 文脈的嗜好分布学習
- Authors: Benjamin Hudson, Laurent Charlin, Emma Frejinger,
- Abstract要約: 本稿では、優先分布を学習し、下流の問題を解決するためにそれらを活用するための逐次学習最適化パイプラインを提案する。
我々は、(整数)線形プログラムとして定式化できる人間の選択設定に焦点を当てる。
- 参考スコア(独自算出の注目度): 5.872632454395936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision-making problems often feature uncertainty stemming from heterogeneous and context-dependent human preferences. To address this, we propose a sequential learning-and-optimization pipeline to learn preference distributions and leverage them to solve downstream problems, for example risk-averse formulations. We focus on human choice settings that can be formulated as (integer) linear programs. In such settings, existing inverse optimization and choice modelling methods infer preferences from observed choices but typically produce point estimates or fail to capture contextual shifts, making them unsuitable for risk-averse decision-making. Using a bounded-variance score function gradient estimator, we train a predictive model mapping contextual features to a rich class of parameterizable distributions. This approach yields a maximum likelihood estimate. The model generates scenarios for unseen contexts in the subsequent optimization phase. In a synthetic ridesharing environment, our approach reduces average post-decision surprise by up to 114$\times$ compared to a risk-neutral approach with perfect predictions and up to 25$\times$ compared to leading risk-averse baselines.
- Abstract(参考訳): 意思決定の問題はしばしば、異質性や文脈に依存した人間の嗜好に起因する不確実性を特徴とする。
そこで本稿では,優先順位分布を学習し,それを活用して下流問題,例えばリスク・逆定式化などを解決するための逐次学習最適化パイプラインを提案する。
我々は、(整数)線形プログラムとして定式化できる人間の選択設定に焦点を当てる。
このような設定では、既存の逆最適化と選択モデリング手法は、観測された選択から選好を推測するが、通常は点推定を生成するか、文脈シフトを捉えないため、リスク-逆決定には適さない。
有界分散スコア関数勾配推定器を用いて、パラメータ化可能な分布の豊富なクラスに文脈的特徴をマッピングする予測モデルを訓練する。
このアプローチは最大推定値を得る。
このモデルは、その後の最適化フェーズで目に見えないコンテキストのシナリオを生成する。
総合的なライドシェアリング環境では,提案手法は,予測が完璧であるリスクニュートラルアプローチよりも平均114$\times$,主要なリスクアバースベースラインと比較して25$\times$を下げる。
関連論文リスト
- Adaptive Conformal Prediction Intervals Over Trajectory Ensembles [50.31074512684758]
将来の軌道は、自律運転、ハリケーン予測、疫病モデルといった領域で重要な役割を果たしている。
本稿では,サンプル軌道を理論的カバレッジ保証付き校正された予測区間に変換する共形予測に基づく統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-18T21:14:07Z) - Data-Driven Sequential Sampling for Tail Risk Mitigation [1.795366746592388]
固定サンプリング予算を逐次割当てして最適な選択肢を高い確率で特定する問題について検討する。
本稿では,データ駆動シーケンシャルサンプリングポリシーを提案する。
論文 参考訳(メタデータ) (2025-03-10T04:32:27Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Robust Data-driven Prescriptiveness Optimization [4.792851066169871]
本稿では、古典的経験的リスク目標最小化に代えて、規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。
サンプル外データセットが様々な分散シフトを受ける場合の代替手法に対する結果のロバスト性を評価する。
論文 参考訳(メタデータ) (2023-06-09T14:56:06Z) - Online Contextual Decision-Making with a Smart Predict-then-Optimize
Method [4.061135251278187]
資源制約を考慮したオンライン文脈決定問題について検討する。
本稿では,「スマート予測-then-(SPO)」法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。
提案手法の全体的な収束速度はオンラインミラー降下の$mathcalO(T-1/2)$収束に依存することを示す。
論文 参考訳(メタデータ) (2022-06-15T06:16:13Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。