論文の概要: Deploying a Robust Active Preference Elicitation Algorithm: Experiment
Design, Interface, and Evaluation for COVID-19 Patient Prioritization
- arxiv url: http://arxiv.org/abs/2306.04061v1
- Date: Tue, 6 Jun 2023 23:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 16:49:00.818629
- Title: Deploying a Robust Active Preference Elicitation Algorithm: Experiment
Design, Interface, and Evaluation for COVID-19 Patient Prioritization
- Title(参考訳): ロバスト・アクティブ・プライス・エミッション・アルゴリズムの展開:COVID-19患者優先のための設計・インターフェース・評価
- Authors: Caroline M. Johnston, Patrick Vossler, Simon Blessenohl, Phebe Vayanos
- Abstract要約: 我々は、ユーザーが適度なペアワイズ比較よりも好みを報告できる選好用オンラインプラットフォームを開発した。
本研究では,ロバストな手法がランダムなクエリを21%高速化することを示す。
- 参考スコア(独自算出の注目度): 3.8895829806224715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference elicitation leverages AI or optimization to learn stakeholder
preferences in settings ranging from marketing to public policy. The online
robust preference elicitation procedure of arXiv:2003.01899 has been shown in
simulation to outperform various other elicitation procedures in terms of
effectively learning individuals' true utilities. However, as with any
simulation, the method makes a series of assumptions that cannot easily be
verified to hold true beyond simulation. Thus, we propose to validate the
robust method's performance in deployment, focused on the particular challenge
of selecting policies for prioritizing COVID-19 patients for scarce hospital
resources during the pandemic. To this end, we develop an online platform for
preference elicitation where users report their preferences between
alternatives over a moderate number of pairwise comparisons chosen by a
particular elicitation procedure. We recruit Amazon Mechanical Turk workers
($n$ = 193) to report their preferences and demonstrate that the robust method
outperforms asking random queries by 21%, the next best performing method in
the simulated results of arXiv:2003.01899, in terms of recommending policies
with a higher utility.
- Abstract(参考訳): 優先適用は、AIや最適化を活用して、マーケティングから公共政策に至るまで、ステークホルダーの好みを学習する。
arxiv:2003.01899のオンラインロバストな選好誘惑手順は、個人の真の効用を効果的に学習する点で、他の様々な誘惑手順よりも優れていることがシミュレーションで示されている。
しかし、任意のシミュレーションと同様に、この手法は、シミュレーションを超えて真となると容易に検証できない一連の仮定を作る。
そこで本研究では,新型コロナウイルス感染症患者を病院の資源不足に優先する政策を選択することの課題に焦点をあてて,ロバストな方法の展開性能を検証することを提案する。
この目的のために我々は,ユーザが選択した中程度の対数比較に対して,選択肢間の嗜好を報告できる,嗜好評価のためのオンラインプラットフォームを開発した。
我々はamazon mechanical turk workers (n$ = 193) を募集し、その好みを報告し、ロバストなメソッドがarxiv:2003.01899のシミュレート結果において、よりユーティリティの高いポリシーを推奨する上で、ランダムなクエリの要求を21%上回ることを示した。
関連論文リスト
- Preference Optimization as Probabilistic Inference [21.95277469346728]
本稿では,好ましくない例や好ましくない例を活用できる手法を提案する。
この柔軟性により、生成言語モデルをトレーニングするなど、さまざまな形式のフィードバックとモデルでシナリオに適用することが可能になります。
論文 参考訳(メタデータ) (2024-10-05T14:04:03Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Enhanced Bayesian Optimization via Preferential Modeling of Abstract
Properties [49.351577714596544]
本研究では,非測定抽象特性に関する専門家の嗜好を代理モデルに組み込むための,人間とAIの協調型ベイズフレームワークを提案する。
優先判断において、誤った/誤解を招く専門家バイアスを処理できる効率的な戦略を提供する。
論文 参考訳(メタデータ) (2024-02-27T09:23:13Z) - Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好の整合において重要である。
現在の方法は、プロンプトジェネレーションのデータセットからプロンプトジェネレーションペアを均一に選択することに依存している。
我々は、好みデータをクエリすることでモデルアライメントを向上させるアクティブな学習アルゴリズムである$textttAPO$を開発した。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Pessimistic Off-Policy Optimization for Learning to Rank [13.733459243449634]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。