論文の概要: Robust Active Preference Elicitation
- arxiv url: http://arxiv.org/abs/2003.01899v2
- Date: Wed, 8 Dec 2021 01:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 13:28:04.618383
- Title: Robust Active Preference Elicitation
- Title(参考訳): Robust Active Preference Elicitation
- Authors: Phebe Vayanos, Yingxiao Ye, Duncan McElfresh, John Dickerson, Eric
Rice
- Abstract要約: ペアワイズ比較クエリを適度に数えることで、意思決定者の好みを抽出する問題について検討する。
私たちは、不足するリソースを割り当てるためのポリシーを選択する場合など、高利害ドメインのアプリケーションによって動機付けられています。
- 参考スコア(独自算出の注目度): 10.961537256186498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of eliciting the preferences of a decision-maker through
a moderate number of pairwise comparison queries to make them a high quality
recommendation for a specific problem. We are motivated by applications in high
stakes domains, such as when choosing a policy for allocating scarce resources
to satisfy basic needs (e.g., kidneys for transplantation or housing for those
experiencing homelessness) where a consequential recommendation needs to be
made from the (partially) elicited preferences. We model uncertainty in the
preferences as being set based and} investigate two settings: a) an offline
elicitation setting, where all queries are made at once, and b) an online
elicitation setting, where queries are selected sequentially over time in an
adaptive fashion. We propose robust optimization formulations of these problems
which integrate the preference elicitation and recommendation phases with aim
to either maximize worst-case utility or minimize worst-case regret, and study
their complexity. For the offline case, where active preference elicitation
takes the form of a two and half stage robust optimization problem with
decision-dependent information discovery, we provide an equivalent
reformulation in the form of a mixed-binary linear program which we solve via
column-and-constraint generation. For the online setting, where active
preference learning takes the form of a multi-stage robust optimization problem
with decision-dependent information discovery, we propose a conservative
solution approach. Numerical studies on synthetic data demonstrate that our
methods outperform state-of-the art approaches from the literature in terms of
worst-case rank, regret, and utility. We showcase how our methodology can be
used to assist a homeless services agency in choosing a policy for allocating
scarce housing resources of different types to people experiencing
homelessness.
- Abstract(参考訳): 本研究では,意思決定者の選好を適度な対数比較クエリによって引き出すことによって,特定の問題に対する高品質なレコメンデーションとなる問題について検討する。
我々は、基礎的ニーズを満たすために不足資源を割り当てる方針を選択する場合(例えば、ホームレスである人のための移植用腎臓や住宅など)において、(部分的に)誘導された選好から一連の推奨を行う必要がある場合など、ハイステークスドメインの応用に動機づけられている。
選好の不確実性を設定ベースとしてモデル化し,2つの設定を考察する。
a)すべての問い合わせが同時に行われるオフラインのエリーテーション設定
b) クエリが順応的に時間とともに順次選択されるオンライン勧誘設定。
提案手法は, 嗜好誘発とレコメンデーションフェーズを統合し, 最悪の場合の実用性を最大化するか, 最悪の場合の後悔を最小限に抑えるか, 複雑度を調べるためのロバストな最適化手法を提案する。
オフラインの場合,決定依存的情報発見を伴う2段階と半段階のロバストな最適化問題の形式をとり,カラム・アンド・コンストラクション生成によって解く混合バイナリ線形プログラムの形式における等価な再構成を提供する。
能動選好学習が意思決定依存情報発見を伴う多段階頑健な最適化問題の形をとるオンライン環境では,保守的手法を提案する。
合成データの数値的研究により,本手法は最悪の格付け,後悔,有用性の観点から,文献の最先端の手法よりも優れていることが示された。
我々は,ホームレスを主観する者に対して,異なる種類の希少住宅資源を割り当てる方針を選択する際の,ホームレスサービス機関を支援するための方法論について紹介する。
関連論文リスト
- An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Stop Relying on No-Choice and Do not Repeat the Moves: Optimal,
Efficient and Practical Algorithms for Assortment Optimization [38.57171985309975]
本研究では,emphPlackett Luce (PL) を用いたコンソーシアム選択問題に対する効率的なアルゴリズムを開発した。
提案手法は,既存の手法の限界を無視し,実用的かつ確実に最適である。
論文 参考訳(メタデータ) (2024-02-29T07:17:04Z) - Multi-Objective Bayesian Optimization with Active Preference Learning [18.066263838953223]
本稿では,多目的最適化 (MOO) 問題において最も望ましい解を特定するためのベイズ最適化 (BO) 手法を提案する。
また、意思決定者(DM)との相互作用コストを最小限に抑えるため、選好推定のためのアクティブラーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-11-22T15:24:36Z) - Dual-Directed Algorithm Design for Efficient Pure Exploration [11.492736493413103]
有限の選択肢からなる逐次適応実験の文脈における純粋探索問題を考える。
サンプルの最適な割り当てに対する強い収束の概念の観点から、最適性の十分な条件を導出する。
我々のアルゴリズムは、$epsilon$-best-armの識別としきい値の帯域幅問題に最適である。
論文 参考訳(メタデータ) (2023-10-30T07:29:17Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Efficient Learning of Decision-Making Models: A Penalty Block Coordinate
Descent Algorithm for Data-Driven Inverse Optimization [12.610576072466895]
我々は、意思決定プロセスを明らかにするために、事前の意思決定データを使用する逆問題を考える。
この統計的学習問題は、データ駆動逆最適化と呼ばれる。
そこで本稿では,大規模問題を解くために,効率的なブロック座標降下に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:52:56Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。