論文の概要: Deploying a Robust Active Preference Elicitation Algorithm on MTurk:
Experiment Design, Interface, and Evaluation for COVID-19 Patient
Prioritization
- arxiv url: http://arxiv.org/abs/2306.04061v2
- Date: Mon, 6 Nov 2023 19:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 22:30:43.301735
- Title: Deploying a Robust Active Preference Elicitation Algorithm on MTurk:
Experiment Design, Interface, and Evaluation for COVID-19 Patient
Prioritization
- Title(参考訳): MTurk上でのロバストな能動選好励振アルゴリズムの展開 : COVID-19患者プライオリティ化のための設計・インターフェース・評価
- Authors: Caroline M. Johnston, Patrick Vossler, Simon Blessenohl, Phebe Vayanos
- Abstract要約: 我々は、ユーザーが適度なペアワイズ比較よりも好みを報告できる選好用オンラインプラットフォームを開発した。
本研究では,ロバストな手法がランダムなクエリを21%高速化することを示す。
- 参考スコア(独自算出の注目度): 2.138934144914637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference elicitation leverages AI or optimization to learn stakeholder
preferences in settings ranging from marketing to public policy. The online
robust preference elicitation procedure of arXiv:2003.01899 has been shown in
simulation to outperform various other elicitation procedures in terms of
effectively learning individuals' true utilities. However, as with any
simulation, the method makes a series of assumptions that cannot easily be
verified to hold true beyond simulation. Thus, we propose to validate the
robust method's performance using real users, focusing on the particular
challenge of selecting policies for prioritizing COVID-19 patients for scarce
hospital resources during the pandemic. To this end, we develop an online
platform for preference elicitation where users report their preferences
between alternatives over a moderate number of pairwise comparisons chosen by a
particular elicitation procedure. We recruit 193 Amazon Mechanical Turk (MTurk)
workers to report their preferences and demonstrate that the robust method
outperforms asking random queries by 21%, the next best performing method in
the simulated results of arXiv:2003.01899, in terms of recommending policies
with a higher utility.
- Abstract(参考訳): 優先適用は、AIや最適化を活用して、マーケティングから公共政策に至るまで、ステークホルダーの好みを学習する。
arxiv:2003.01899のオンラインロバストな選好誘惑手順は、個人の真の効用を効果的に学習する点で、他の様々な誘惑手順よりも優れていることがシミュレーションで示されている。
しかし、任意のシミュレーションと同様に、この手法は、シミュレーションを超えて真となると容易に検証できない一連の仮定を作る。
そこで本研究では,新型コロナウイルス(covid-19)患者の病院資源不足に対する優先順位付け方針の選定という課題に着目し,実ユーザによるロバストな手法の有効性を検証することを提案する。
この目的のために我々は,ユーザが選択した中程度の対数比較に対して,選択肢間の嗜好を報告できる,嗜好評価のためのオンラインプラットフォームを開発した。
我々は,amazon mechanical turk (mturk) の193人の従業員を募集し,その好みを報告し,ロバストな手法が,arxiv:2003.01899のシミュレート結果において,より高機能なポリシーを推奨する上で,次の最善の手法である21%のランダムクエリ要求を上回っていることを実証した。
関連論文リスト
- Preference Optimization as Probabilistic Inference [21.95277469346728]
本稿では,好ましくない例や好ましくない例を活用できる手法を提案する。
この柔軟性により、生成言語モデルをトレーニングするなど、さまざまな形式のフィードバックとモデルでシナリオに適用することが可能になります。
論文 参考訳(メタデータ) (2024-10-05T14:04:03Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Enhanced Bayesian Optimization via Preferential Modeling of Abstract
Properties [49.351577714596544]
本研究では,非測定抽象特性に関する専門家の嗜好を代理モデルに組み込むための,人間とAIの協調型ベイズフレームワークを提案する。
優先判断において、誤った/誤解を招く専門家バイアスを処理できる効率的な戦略を提供する。
論文 参考訳(メタデータ) (2024-02-27T09:23:13Z) - Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好の整合において重要である。
現在の方法は、プロンプトジェネレーションのデータセットからプロンプトジェネレーションペアを均一に選択することに依存している。
我々は、好みデータをクエリすることでモデルアライメントを向上させるアクティブな学習アルゴリズムである$textttAPO$を開発した。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Pessimistic Off-Policy Optimization for Learning to Rank [13.733459243449634]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。