Fugu-MT 論文翻訳(概要): Robust Active Preference Elicitation

論文の概要: Robust Active Preference Elicitation

arxiv url: http://arxiv.org/abs/2003.01899v2
Date: Wed, 8 Dec 2021 01:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 13:28:04.618383
Title: Robust Active Preference Elicitation
Title（参考訳）: Robust Active Preference Elicitation
Authors: Phebe Vayanos, Yingxiao Ye, Duncan McElfresh, John Dickerson, Eric Rice
Abstract要約: ペアワイズ比較クエリを適度に数えることで、意思決定者の好みを抽出する問題について検討する。私たちは、不足するリソースを割り当てるためのポリシーを選択する場合など、高利害ドメインのアプリケーションによって動機付けられています。
参考スコア（独自算出の注目度）: 10.961537256186498
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of eliciting the preferences of a decision-maker through a moderate number of pairwise comparison queries to make them a high quality recommendation for a specific problem. We are motivated by applications in high stakes domains, such as when choosing a policy for allocating scarce resources to satisfy basic needs (e.g., kidneys for transplantation or housing for those experiencing homelessness) where a consequential recommendation needs to be made from the (partially) elicited preferences. We model uncertainty in the preferences as being set based and} investigate two settings: a) an offline elicitation setting, where all queries are made at once, and b) an online elicitation setting, where queries are selected sequentially over time in an adaptive fashion. We propose robust optimization formulations of these problems which integrate the preference elicitation and recommendation phases with aim to either maximize worst-case utility or minimize worst-case regret, and study their complexity. For the offline case, where active preference elicitation takes the form of a two and half stage robust optimization problem with decision-dependent information discovery, we provide an equivalent reformulation in the form of a mixed-binary linear program which we solve via column-and-constraint generation. For the online setting, where active preference learning takes the form of a multi-stage robust optimization problem with decision-dependent information discovery, we propose a conservative solution approach. Numerical studies on synthetic data demonstrate that our methods outperform state-of-the art approaches from the literature in terms of worst-case rank, regret, and utility. We showcase how our methodology can be used to assist a homeless services agency in choosing a policy for allocating scarce housing resources of different types to people experiencing homelessness.
Abstract（参考訳）: 本研究では,意思決定者の選好を適度な対数比較クエリによって引き出すことによって,特定の問題に対する高品質なレコメンデーションとなる問題について検討する。我々は、基礎的ニーズを満たすために不足資源を割り当てる方針を選択する場合(例えば、ホームレスである人のための移植用腎臓や住宅など)において、(部分的に)誘導された選好から一連の推奨を行う必要がある場合など、ハイステークスドメインの応用に動機づけられている。選好の不確実性を設定ベースとしてモデル化し,2つの設定を考察する。 a)すべての問い合わせが同時に行われるオフラインのエリーテーション設定 b) クエリが順応的に時間とともに順次選択されるオンライン勧誘設定。提案手法は, 嗜好誘発とレコメンデーションフェーズを統合し, 最悪の場合の実用性を最大化するか, 最悪の場合の後悔を最小限に抑えるか, 複雑度を調べるためのロバストな最適化手法を提案する。オフラインの場合,決定依存的情報発見を伴う2段階と半段階のロバストな最適化問題の形式をとり,カラム・アンド・コンストラクション生成によって解く混合バイナリ線形プログラムの形式における等価な再構成を提供する。能動選好学習が意思決定依存情報発見を伴う多段階頑健な最適化問題の形をとるオンライン環境では,保守的手法を提案する。合成データの数値的研究により,本手法は最悪の格付け,後悔,有用性の観点から,文献の最先端の手法よりも優れていることが示された。我々は,ホームレスを主観する者に対して,異なる種類の希少住宅資源を割り当てる方針を選択する際の,ホームレスサービス機関を支援するための方法論について紹介する。

関連論文リスト

Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。 RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T08:33:11Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Stop Relying on No-Choice and Do not Repeat the Moves: Optimal, Efficient and Practical Algorithms for Assortment Optimization [38.57171985309975]
本研究では,emphPlackett Luce (PL) を用いたコンソーシアム選択問題に対する効率的なアルゴリズムを開発した。提案手法は,既存の手法の限界を無視し,実用的かつ確実に最適である。
論文参考訳（メタデータ） (2024-02-29T07:17:04Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Multi-Objective Bayesian Optimization with Active Preference Learning [18.066263838953223]
本稿では,多目的最適化 (MOO) 問題において最も望ましい解を特定するためのベイズ最適化 (BO) 手法を提案する。また、意思決定者(DM)との相互作用コストを最小限に抑えるため、選好推定のためのアクティブラーニング戦略を提案する。
論文参考訳（メタデータ） (2023-11-22T15:24:36Z)
Dual-Directed Algorithm Design for Efficient Pure Exploration [11.492736493413103]
有限の選択肢からなる逐次適応実験の文脈における純粋探索問題を考える。サンプルの最適な割り当てに対する強い収束の概念の観点から、最適性の十分な条件を導出する。我々のアルゴリズムは、$epsilon$-best-armの識別としきい値の帯域幅問題に最適である。
論文参考訳（メタデータ） (2023-10-30T07:29:17Z)
Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文参考訳（メタデータ） (2023-02-02T16:30:33Z)
Efficient Learning of Decision-Making Models: A Penalty Block Coordinate Descent Algorithm for Data-Driven Inverse Optimization [12.610576072466895]
我々は、意思決定プロセスを明らかにするために、事前の意思決定データを使用する逆問題を考える。この統計的学習問題は、データ駆動逆最適化と呼ばれる。そこで本稿では,大規模問題を解くために,効率的なブロック座標降下に基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-27T12:52:56Z)
Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文参考訳（メタデータ） (2022-01-28T05:53:28Z)
Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。 2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文参考訳（メタデータ） (2021-06-06T23:53:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。