論文の概要: Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback
- arxiv url: http://arxiv.org/abs/2302.03805v2
- Date: Wed, 1 Nov 2023 03:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 18:22:33.511368
- Title: Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback
- Title(参考訳): 比較フィードバックによる個人化多目的意思決定のためのユーザの嗜好の緩和
- Authors: Han Shao, Lee Cohen, Avrim Blum, Yishay Mansour, Aadirupa Saha,
Matthew R. Walter
- Abstract要約: 目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 76.7007545844273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In classic reinforcement learning (RL) and decision making problems, policies
are evaluated with respect to a scalar reward function, and all optimal
policies are the same with regards to their expected return. However, many
real-world problems involve balancing multiple, sometimes conflicting,
objectives whose relative priority will vary according to the preferences of
each user. Consequently, a policy that is optimal for one user might be
sub-optimal for another. In this work, we propose a multi-objective decision
making framework that accommodates different user preferences over objectives,
where preferences are learned via policy comparisons. Our model consists of a
Markov decision process with a vector-valued reward function, with each user
having an unknown preference vector that expresses the relative importance of
each objective. The goal is to efficiently compute a near-optimal policy for a
given user. We consider two user feedback models. We first address the case
where a user is provided with two policies and returns their preferred policy
as feedback. We then move to a different user feedback model, where a user is
instead provided with two small weighted sets of representative trajectories
and selects the preferred one. In both cases, we suggest an algorithm that
finds a nearly optimal policy for the user using a small number of comparison
queries.
- Abstract(参考訳): 古典的な強化学習(rl)と意思決定問題では、政策はスカラー報酬関数に関して評価され、すべての最適方針は期待されたリターンに関して同じである。
しかし、現実の多くの問題は、複数の、時には矛盾する、相対的な優先順位が各ユーザの好みによって異なる目的のバランスをとることである。
したがって、あるユーザにとって最適なポリシーは、別のユーザにとって最適であるかもしれない。
そこで本研究では,目的に対して異なるユーザ嗜好を許容する多目的意思決定フレームワークを提案する。
このモデルは,ベクトル値の報酬関数を持つマルコフ決定プロセスと,目的の相対的重要性を表す未知の選好ベクトルを持つユーザから構成される。
ゴールは、あるユーザーの最適に近いポリシーを効率的に計算することである。
ユーザフィードバックモデルを2つ検討する。
まず、ユーザが2つのポリシーを提供し、望ましいポリシーをフィードバックとして返す場合に対処します。
その後、異なるユーザーフィードバックモデルに移行し、ユーザは代わりに2つの小さな重み付けされた代表軌跡セットを提供し、望ましいものを選択する。
いずれの場合においても,少数の比較クエリを用いてユーザに対して,ほぼ最適なポリシを求めるアルゴリズムを提案する。
関連論文リスト
- Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Human-in-the-Loop Policy Optimization for Preference-Based
Multi-Objective Reinforcement Learning [13.627087954965695]
好みに基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
我々は従来の3つのMORLアルゴリズムと4つの最先端の選好に基づくMORLアルゴリズムに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-01-04T09:17:53Z) - Pacos: Modeling Users' Interpretable and Context-Dependent Choices in
Preference Reversals [8.041047797530808]
我々は,ユーザの適応重み,イテム間比較,表示位置の3つの要因を同定した。
3つの要因を同時に扱うための統合フレームワークとして,Pacosというコンテキスト依存の嗜好モデルを提案する。
実験の結果,提案手法は,ユーザの選択を予測するための先行作業よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-03-10T01:49:56Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Everyone's Preference Changes Differently: Weighted Multi-Interest
Retrieval Model [18.109035867113217]
MIPモデル(Multi-Interest Preference)は、ユーザのシーケンシャルエンゲージメントをより効果的に利用することで、ユーザにとってマルチエンゲージメントを生み出すアプローチである。
本手法の有効性を実証するため,様々な産業規模のデータセットを用いて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-07-14T04:29:54Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - IMO$^3$: Interactive Multi-Objective Off-Policy Optimization [45.2918894257473]
システムデザイナは、望ましい運用ポイントに到達するために、目標をトレードオフするポリシーを見つける必要があります。
対話型多目的オフポリシー最適化(IMO$3$)を提案する。
IMO$3$は、確率の高い準最適ポリシーを識別する。
論文 参考訳(メタデータ) (2022-01-24T16:51:41Z) - Low-Cost Algorithmic Recourse for Users With Uncertain Cost Functions [74.00030431081751]
本稿では,ユーザ固有のコスト関数の概念を定式化し,ユーザのための行動可能なリコースを識別する新しい手法を提案する。
本手法は,強いベースライン法に比べて最大25.89パーセントのユーザを満足させる。
論文 参考訳(メタデータ) (2021-11-01T19:49:35Z) - Dynamic-K Recommendation with Personalized Decision Boundary [41.70842736417849]
ランキングと分類の目的を併せ持つ共同学習問題として動的k推薦タスクを開発した。
我々は、BPRMFとHRMの2つの最先端ランキングベースのレコメンデーション手法を対応する動的Kバージョンに拡張する。
2つのデータセットに対する実験結果から,動的Kモデルの方が従来の固定N推奨手法よりも有効であることが示された。
論文 参考訳(メタデータ) (2020-12-25T13:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。