論文の概要: Deploying a Robust Active Preference Elicitation Algorithm on MTurk:
Experiment Design, Interface, and Evaluation for COVID-19 Patient
Prioritization
- arxiv url: http://arxiv.org/abs/2306.04061v2
- Date: Mon, 6 Nov 2023 19:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 22:30:43.301735
- Title: Deploying a Robust Active Preference Elicitation Algorithm on MTurk:
Experiment Design, Interface, and Evaluation for COVID-19 Patient
Prioritization
- Title(参考訳): MTurk上でのロバストな能動選好励振アルゴリズムの展開 : COVID-19患者プライオリティ化のための設計・インターフェース・評価
- Authors: Caroline M. Johnston, Patrick Vossler, Simon Blessenohl, Phebe Vayanos
- Abstract要約: 我々は、ユーザーが適度なペアワイズ比較よりも好みを報告できる選好用オンラインプラットフォームを開発した。
本研究では,ロバストな手法がランダムなクエリを21%高速化することを示す。
- 参考スコア(独自算出の注目度): 2.138934144914637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference elicitation leverages AI or optimization to learn stakeholder
preferences in settings ranging from marketing to public policy. The online
robust preference elicitation procedure of arXiv:2003.01899 has been shown in
simulation to outperform various other elicitation procedures in terms of
effectively learning individuals' true utilities. However, as with any
simulation, the method makes a series of assumptions that cannot easily be
verified to hold true beyond simulation. Thus, we propose to validate the
robust method's performance using real users, focusing on the particular
challenge of selecting policies for prioritizing COVID-19 patients for scarce
hospital resources during the pandemic. To this end, we develop an online
platform for preference elicitation where users report their preferences
between alternatives over a moderate number of pairwise comparisons chosen by a
particular elicitation procedure. We recruit 193 Amazon Mechanical Turk (MTurk)
workers to report their preferences and demonstrate that the robust method
outperforms asking random queries by 21%, the next best performing method in
the simulated results of arXiv:2003.01899, in terms of recommending policies
with a higher utility.
- Abstract(参考訳): 優先適用は、AIや最適化を活用して、マーケティングから公共政策に至るまで、ステークホルダーの好みを学習する。
arxiv:2003.01899のオンラインロバストな選好誘惑手順は、個人の真の効用を効果的に学習する点で、他の様々な誘惑手順よりも優れていることがシミュレーションで示されている。
しかし、任意のシミュレーションと同様に、この手法は、シミュレーションを超えて真となると容易に検証できない一連の仮定を作る。
そこで本研究では,新型コロナウイルス(covid-19)患者の病院資源不足に対する優先順位付け方針の選定という課題に着目し,実ユーザによるロバストな手法の有効性を検証することを提案する。
この目的のために我々は,ユーザが選択した中程度の対数比較に対して,選択肢間の嗜好を報告できる,嗜好評価のためのオンラインプラットフォームを開発した。
我々は,amazon mechanical turk (mturk) の193人の従業員を募集し,その好みを報告し,ロバストな手法が,arxiv:2003.01899のシミュレート結果において,より高機能なポリシーを推奨する上で,次の最善の手法である21%のランダムクエリ要求を上回っていることを実証した。
関連論文リスト
- Enhanced Bayesian Optimization via Preferential Modeling of Abstract
Properties [49.351577714596544]
本研究では,非測定抽象特性に関する専門家の嗜好を代理モデルに組み込むための,人間とAIの協調型ベイズフレームワークを提案する。
優先判断において、誤った/誤解を招く専門家バイアスを処理できる効率的な戦略を提供する。
論文 参考訳(メタデータ) (2024-02-27T09:23:13Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Pessimistic Off-Policy Optimization for Learning to Rank [9.197878514042227]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - Machine Learning Simulates Agent-Based Model Towards Policy [0.0]
ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。
その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。
以上の結果から,MRには最適あるいは非最適結果が好まれる組込み構造がすでに存在することが示唆された。
論文 参考訳(メタデータ) (2022-03-04T21:19:11Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。