Fugu-MT 論文翻訳(概要): Deploying a Robust Active Preference Elicitation Algorithm on MTurk: Experiment Design, Interface, and Evaluation for COVID-19 Patient Prioritization

論文の概要: Deploying a Robust Active Preference Elicitation Algorithm on MTurk: Experiment Design, Interface, and Evaluation for COVID-19 Patient Prioritization

arxiv url: http://arxiv.org/abs/2306.04061v2
Date: Mon, 6 Nov 2023 19:17:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 22:30:43.301735
Title: Deploying a Robust Active Preference Elicitation Algorithm on MTurk: Experiment Design, Interface, and Evaluation for COVID-19 Patient Prioritization
Title（参考訳）: MTurk上でのロバストな能動選好励振アルゴリズムの展開 : COVID-19患者プライオリティ化のための設計・インターフェース・評価
Authors: Caroline M. Johnston, Patrick Vossler, Simon Blessenohl, Phebe Vayanos
Abstract要約: 我々は、ユーザーが適度なペアワイズ比較よりも好みを報告できる選好用オンラインプラットフォームを開発した。本研究では,ロバストな手法がランダムなクエリを21%高速化することを示す。
参考スコア（独自算出の注目度）: 2.138934144914637
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference elicitation leverages AI or optimization to learn stakeholder preferences in settings ranging from marketing to public policy. The online robust preference elicitation procedure of arXiv:2003.01899 has been shown in simulation to outperform various other elicitation procedures in terms of effectively learning individuals' true utilities. However, as with any simulation, the method makes a series of assumptions that cannot easily be verified to hold true beyond simulation. Thus, we propose to validate the robust method's performance using real users, focusing on the particular challenge of selecting policies for prioritizing COVID-19 patients for scarce hospital resources during the pandemic. To this end, we develop an online platform for preference elicitation where users report their preferences between alternatives over a moderate number of pairwise comparisons chosen by a particular elicitation procedure. We recruit 193 Amazon Mechanical Turk (MTurk) workers to report their preferences and demonstrate that the robust method outperforms asking random queries by 21%, the next best performing method in the simulated results of arXiv:2003.01899, in terms of recommending policies with a higher utility.
Abstract（参考訳）: 優先適用は、AIや最適化を活用して、マーケティングから公共政策に至るまで、ステークホルダーの好みを学習する。 arxiv:2003.01899のオンラインロバストな選好誘惑手順は、個人の真の効用を効果的に学習する点で、他の様々な誘惑手順よりも優れていることがシミュレーションで示されている。しかし、任意のシミュレーションと同様に、この手法は、シミュレーションを超えて真となると容易に検証できない一連の仮定を作る。そこで本研究では,新型コロナウイルス(covid-19)患者の病院資源不足に対する優先順位付け方針の選定という課題に着目し,実ユーザによるロバストな手法の有効性を検証することを提案する。この目的のために我々は,ユーザが選択した中程度の対数比較に対して,選択肢間の嗜好を報告できる,嗜好評価のためのオンラインプラットフォームを開発した。我々は,amazon mechanical turk (mturk) の193人の従業員を募集し,その好みを報告し,ロバストな手法が,arxiv:2003.01899のシミュレート結果において,より高機能なポリシーを推奨する上で,次の最善の手法である21%のランダムクエリ要求を上回っていることを実証した。

関連論文リスト

A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文参考訳（メタデータ） (2025-05-30T15:30:43Z)
Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。 CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-04T18:59:23Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Preference Optimization as Probabilistic Inference [21.95277469346728]
本稿では,好ましくない例や好ましくない例を活用できる手法を提案する。この柔軟性により、生成言語モデルをトレーニングするなど、さまざまな形式のフィードバックとモデルでシナリオに適用することが可能になります。
論文参考訳（メタデータ） (2024-10-05T14:04:03Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
Enhanced Bayesian Optimization via Preferential Modeling of Abstract Properties [49.351577714596544]
本研究では,非測定抽象特性に関する専門家の嗜好を代理モデルに組み込むための,人間とAIの協調型ベイズフレームワークを提案する。優先判断において、誤った/誤解を招く専門家バイアスを処理できる効率的な戦略を提供する。
論文参考訳（メタデータ） (2024-02-27T09:23:13Z)
Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好の整合において重要である。現在の方法は、プロンプトジェネレーションのデータセットからプロンプトジェネレーションペアを均一に選択することに依存している。我々は、好みデータをクエリすることでモデルアライメントを向上させるアクティブな学習アルゴリズムである$textttAPO$を開発した。
論文参考訳（メタデータ） (2024-02-16T08:19:34Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文参考訳（メタデータ） (2024-01-28T21:19:15Z)
Efficient Real-world Testing of Causal Decision Making via Bayesian Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文参考訳（メタデータ） (2022-07-12T01:20:11Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Pessimistic Off-Policy Optimization for Learning to Rank [13.733459243449634]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文参考訳（メタデータ） (2022-06-06T12:58:28Z)
Machine Learning Simulates Agent-Based Model Towards Policy [0.0]
ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。以上の結果から,MRには最適あるいは非最適結果が好まれる組込み構造がすでに存在することが示唆された。
論文参考訳（メタデータ） (2022-03-04T21:19:11Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。