論文の概要: Inferring Lexicographically-Ordered Rewards from Preferences
- arxiv url: http://arxiv.org/abs/2202.10153v1
- Date: Mon, 21 Feb 2022 12:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 15:14:37.245663
- Title: Inferring Lexicographically-Ordered Rewards from Preferences
- Title(参考訳): 選好からのレキシカルリワードの推測
- Authors: Alihan H\"uy\"uk, William R. Zame, Mihaela van der Schaar
- Abstract要約: 本稿では,エージェントの観察された嗜好の多目的報酬に基づく表現を推定する手法を提案する。
我々は,異なる目的に対するエージェントの優先順位を語彙的入力としてモデル化することにより,エージェントがより高い優先順位を持つ目的に対して無関心である場合に限って,より低い優先順位を持つ目的が重要となるようにした。
- 参考スコア(独自算出の注目度): 82.42854687952115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling the preferences of agents over a set of alternatives is a principal
concern in many areas. The dominant approach has been to find a single
reward/utility function with the property that alternatives yielding higher
rewards are preferred over alternatives yielding lower rewards. However, in
many settings, preferences are based on multiple, often competing, objectives;
a single reward function is not adequate to represent such preferences. This
paper proposes a method for inferring multi-objective reward-based
representations of an agent's observed preferences. We model the agent's
priorities over different objectives as entering lexicographically, so that
objectives with lower priorities matter only when the agent is indifferent with
respect to objectives with higher priorities. We offer two example applications
in healthcare, one inspired by cancer treatment, the other inspired by organ
transplantation, to illustrate how the lexicographically-ordered rewards we
learn can provide a better understanding of a decision-maker's preferences and
help improve policies when used in reinforcement learning.
- Abstract(参考訳): 代替案の集合よりもエージェントの選好をモデル化することは、多くの分野で主要な関心事である。
主なアプローチは、より高い報酬を得る代替品が低い報酬を得る代替品よりも好ましいという特性を持つ単一の報酬/効用関数を見つけることである。
しかし、多くの設定において、選好は複数の、しばしば競合する目的に基づいており、そのような選好を表現するには単一の報奨関数が不十分である。
本稿では,エージェントの観察した嗜好の多目的報酬に基づく表現を推定する手法を提案する。
我々は,より優先度の高い目的に対してエージェントが無関心である場合に限り,優先度の低い目標が重要となるように,異なる目的に対するエージェントの優先順位を語彙的にモデル化する。
我々は、がん治療にインスパイアされた医療と、臓器移植にインスパイアされた医療の2つの例を提供し、私たちが学んだ語彙順応報酬が、意思決定者の好みをよりよく理解し、強化学習に使用する際の政策改善に役立つかを説明する。
関連論文リスト
- Exploiting Preferences in Loss Functions for Sequential Recommendation via Weak Transitivity [4.7894654945375175]
最適化の目的の選択は、レコメンダシステムの設計において極めて重要である。
そこで本研究では,スコア間の相対的な順序として,異なる選好レベルを明示的に活用するために,本来の目的を拡張した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T06:55:19Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Consistent Aggregation of Objectives with Diverse Time Preferences
Requires Non-Markovian Rewards [7.9456318392035845]
報奨関数のマルコフ的アグリゲーションは、各目的に対する時間的選好が異なる場合、不可能である。
これは、最適多目的エージェントは、個々の目的に関してマルコフ的でない報酬を認めなければならないことを従う。
この研究は、シーケンシャルで多目的的なエージェンシーと時間的選択に関する新たな洞察を提供し、異なる時間的嗜好を持つ複数の世代のプリンシパルにサービスを提供するためにデプロイされるAIシステムの設計に実践的な意味を持つ。
論文 参考訳(メタデータ) (2023-09-30T17:06:34Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Multi-Target Multiplicity: Flexibility and Fairness in Target
Specification under Resource Constraints [76.84999501420938]
対象の選択が個人の結果にどのように影響するかを評価するための概念的および計算的枠組みを導入する。
目的変数選択から生じる多重度は, 1つのターゲットのほぼ最適モデルから生じるものよりも大きいことが示される。
論文 参考訳(メタデータ) (2023-06-23T18:57:14Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - An AGM Approach to Revising Preferences [7.99536002595393]
本稿では,2つの要素間の相互作用から生じる選好変化について考察する。1つ目は,既存姿勢を符号化した初期選好ランキングであり,もう1つは権威源からの入力を示す新たな選好情報である。
目的は、必要以上の情報を捨てることなく、最初の好みを調整し、新しい好みに合わせることである。
我々は、このプロセスを、よく知られたAGMアプローチのラインに沿って、形式的な信念変化の機械を用いてモデル化する。
論文 参考訳(メタデータ) (2021-12-28T18:12:57Z) - Incentivizing Exploration with Selective Data Disclosure [70.11902902106014]
効率的な探索を促すレコメンデーションシステムを提案し設計する。
エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。
フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文 参考訳(メタデータ) (2018-11-14T19:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。