論文の概要: Deploying a Robust Active Preference Elicitation Algorithm: Experiment
Design, Interface, and Evaluation for COVID-19 Patient Prioritization
- arxiv url: http://arxiv.org/abs/2306.04061v1
- Date: Tue, 6 Jun 2023 23:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 16:49:00.818629
- Title: Deploying a Robust Active Preference Elicitation Algorithm: Experiment
Design, Interface, and Evaluation for COVID-19 Patient Prioritization
- Title(参考訳): ロバスト・アクティブ・プライス・エミッション・アルゴリズムの展開:COVID-19患者優先のための設計・インターフェース・評価
- Authors: Caroline M. Johnston, Patrick Vossler, Simon Blessenohl, Phebe Vayanos
- Abstract要約: 我々は、ユーザーが適度なペアワイズ比較よりも好みを報告できる選好用オンラインプラットフォームを開発した。
本研究では,ロバストな手法がランダムなクエリを21%高速化することを示す。
- 参考スコア(独自算出の注目度): 3.8895829806224715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference elicitation leverages AI or optimization to learn stakeholder
preferences in settings ranging from marketing to public policy. The online
robust preference elicitation procedure of arXiv:2003.01899 has been shown in
simulation to outperform various other elicitation procedures in terms of
effectively learning individuals' true utilities. However, as with any
simulation, the method makes a series of assumptions that cannot easily be
verified to hold true beyond simulation. Thus, we propose to validate the
robust method's performance in deployment, focused on the particular challenge
of selecting policies for prioritizing COVID-19 patients for scarce hospital
resources during the pandemic. To this end, we develop an online platform for
preference elicitation where users report their preferences between
alternatives over a moderate number of pairwise comparisons chosen by a
particular elicitation procedure. We recruit Amazon Mechanical Turk workers
($n$ = 193) to report their preferences and demonstrate that the robust method
outperforms asking random queries by 21%, the next best performing method in
the simulated results of arXiv:2003.01899, in terms of recommending policies
with a higher utility.
- Abstract(参考訳): 優先適用は、AIや最適化を活用して、マーケティングから公共政策に至るまで、ステークホルダーの好みを学習する。
arxiv:2003.01899のオンラインロバストな選好誘惑手順は、個人の真の効用を効果的に学習する点で、他の様々な誘惑手順よりも優れていることがシミュレーションで示されている。
しかし、任意のシミュレーションと同様に、この手法は、シミュレーションを超えて真となると容易に検証できない一連の仮定を作る。
そこで本研究では,新型コロナウイルス感染症患者を病院の資源不足に優先する政策を選択することの課題に焦点をあてて,ロバストな方法の展開性能を検証することを提案する。
この目的のために我々は,ユーザが選択した中程度の対数比較に対して,選択肢間の嗜好を報告できる,嗜好評価のためのオンラインプラットフォームを開発した。
我々はamazon mechanical turk workers (n$ = 193) を募集し、その好みを報告し、ロバストなメソッドがarxiv:2003.01899のシミュレート結果において、よりユーティリティの高いポリシーを推奨する上で、ランダムなクエリの要求を21%上回ることを示した。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Enhanced Bayesian Optimization via Preferential Modeling of Abstract
Properties [49.351577714596544]
本研究では,非測定抽象特性に関する専門家の嗜好を代理モデルに組み込むための,人間とAIの協調型ベイズフレームワークを提案する。
優先判断において、誤った/誤解を招く専門家バイアスを処理できる効率的な戦略を提供する。
論文 参考訳(メタデータ) (2024-02-27T09:23:13Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Pessimistic Off-Policy Optimization for Learning to Rank [9.197878514042227]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - Machine Learning Simulates Agent-Based Model Towards Policy [0.0]
ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。
その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。
以上の結果から,MRには最適あるいは非最適結果が好まれる組込み構造がすでに存在することが示唆された。
論文 参考訳(メタデータ) (2022-03-04T21:19:11Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。