論文の概要: Expected Scalarised Returns Dominance: A New Solution Concept for
Multi-Objective Decision Making
- arxiv url: http://arxiv.org/abs/2106.01048v1
- Date: Wed, 2 Jun 2021 09:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 04:17:37.118730
- Title: Expected Scalarised Returns Dominance: A New Solution Concept for
Multi-Objective Decision Making
- Title(参考訳): 期待されるScalarised Returns支配 - 複数目的決定のための新しいソリューションコンセプト
- Authors: Conor F. Hayes, Timothy Verstraeten, Diederik M. Roijers, Enda Howley,
Patrick Mannion
- Abstract要約: 多くの実世界のシナリオでは、ユーザのユーティリティはポリシーの単一実行から導かれる。
多目的強化学習を適用するためには、期待される戻り値の有用性を最適化する必要がある。
本稿では,期待されるユーティリティを最大化するためのソリューションセット構築の基準として,一階優位性を提案する。
次に、ESR支配的なポリシーの集合であるESRセットと呼ばれる新しいソリューションの概念を定義します。
- 参考スコア(独自算出の注目度): 4.117597517886004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world scenarios, the utility of a user is derived from the
single execution of a policy. In this case, to apply multi-objective
reinforcement learning, the expected utility of the returns must be optimised.
Various scenarios exist where a user's preferences over objectives (also known
as the utility function) are unknown or difficult to specify. In such
scenarios, a set of optimal policies must be learned. However, settings where
the expected utility must be maximised have been largely overlooked by the
multi-objective reinforcement learning community and, as a consequence, a set
of optimal solutions has yet to be defined. In this paper we address this
challenge by proposing first-order stochastic dominance as a criterion to build
solution sets to maximise expected utility. We also propose a new dominance
criterion, known as expected scalarised returns (ESR) dominance, that extends
first-order stochastic dominance to allow a set of optimal policies to be
learned in practice. We then define a new solution concept called the ESR set,
which is a set of policies that are ESR dominant. Finally, we define a new
multi-objective distributional tabular reinforcement learning (MOT-DRL)
algorithm to learn the ESR set in a multi-objective multi-armed bandit setting.
- Abstract(参考訳): 多くの現実世界のシナリオでは、ユーザのユーティリティはポリシーの単一の実行から派生しています。
この場合、多目的強化学習を適用するには、期待するリターンの有用性を最適化する必要がある。
目的(ユーティリティ関数としても知られる)に対するユーザの好みが不明で、特定が難しい、さまざまなシナリオが存在する。
このようなシナリオでは、最適なポリシーのセットを学ぶ必要があります。
しかし、期待されるユーティリティを最大化しなければならない設定は、多目的強化学習コミュニティによってほとんど見過ごされ、その結果、最適解のセットがまだ定義されていない。
本稿では,期待できる実用性を最大化するための解集合を構築するための基準として,一階の確率的支配を提案する。
また,一階の確率的支配を拡張して,一連の最適政策を実践的に学習可能にする,期待スカラーリターン(destination scalarised return, esr)支配と呼ばれる新しい支配基準を提案する。
次に、ESR支配的なポリシーの集合であるESRセットと呼ばれる新しいソリューションの概念を定義します。
最後に,多目的分散表型強化学習(MOT-DRL)アルゴリズムを定義し,多目的マルチアームバンディット設定のESR集合を学習する。
関連論文リスト
- Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Multi-Objective Coordination Graphs for the Expected Scalarised Returns
with Generative Flow Models [2.7648976108201815]
現実世界の問題を解決する鍵は、エージェント間の疎結合構造を利用することである。
風力発電の制御においては、電力の最大化とシステムコンポーネントのストレスの最小化の間にトレードオフが存在する。
エージェント間の疎結合を多目的協調グラフ(MO-CoG)としてモデル化する。
論文 参考訳(メタデータ) (2022-07-01T12:10:15Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk Aware and Multi-Objective Decision Making with Distributional Monte
Carlo Tree Search [3.487620847066216]
本稿では,個別のポリシー実行から実現可能なリターンの効用に関する後続分布を学習するアルゴリズムを提案する。
提案アルゴリズムは,多目的強化学習における最先端の手法よりも,期待されるリターンの有効性に優れる。
論文 参考訳(メタデータ) (2021-02-01T16:47:39Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。