論文の概要: Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.13032v1
- Date: Wed, 23 Nov 2022 15:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:12:02.828781
- Title: Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective
Reinforcement Learning
- Title(参考訳): リスク認識と多目的強化学習のためのモンテカルロ木探索アルゴリズム
- Authors: Conor F. Hayes and Mathieu Reymond and Diederik M. Roijers and Enda
Howley and Patrick Mannion
- Abstract要約: 多くのリスク認識および多目的強化学習設定において、ユーザの有用性はポリシーの単一実行から導かれる。
2つの新しいモンテカルロ木探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.3449131636069898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many risk-aware and multi-objective reinforcement learning settings, the
utility of the user is derived from a single execution of a policy. In these
settings, making decisions based on the average future returns is not suitable.
For example, in a medical setting a patient may only have one opportunity to
treat their illness. Making decisions using just the expected future returns --
known in reinforcement learning as the value -- cannot account for the
potential range of adverse or positive outcomes a decision may have. Therefore,
we should use the distribution over expected future returns differently to
represent the critical information that the agent requires at decision time by
taking both the future and accrued returns into consideration. In this paper,
we propose two novel Monte Carlo tree search algorithms. Firstly, we present a
Monte Carlo tree search algorithm that can compute policies for nonlinear
utility functions (NLU-MCTS) by optimising the utility of the different
possible returns attainable from individual policy executions, resulting in
good policies for both risk-aware and multi-objective settings. Secondly, we
propose a distributional Monte Carlo tree search algorithm (DMCTS) which
extends NLU-MCTS. DMCTS computes an approximate posterior distribution over the
utility of the returns, and utilises Thompson sampling during planning to
compute policies in risk-aware and multi-objective settings. Both algorithms
outperform the state-of-the-art in multi-objective reinforcement learning for
the expected utility of the returns.
- Abstract(参考訳): 多くのリスク認識および多目的強化学習設定において、ユーザの有用性はポリシーの単一実行から導かれる。
これらの設定では、平均的な将来のリターンに基づいた決定は適切ではない。
例えば、医療現場では、患者は病気を治療する機会を1つだけ持つことができる。
期待される将来のリターン(強化学習でその価値として知られる)だけを使って決定を下すことは、決定が持つ可能性のある有害あるいはポジティブな結果の範囲を考慮できない。
したがって、期待される未来に対する分布は、エージェントが決定時に要求する重要な情報を表すために、未来と獲得されたリターンの両方を考慮に入れ、異なる方法で利用すべきである。
本稿では2つのモンテカルロ木探索アルゴリズムを提案する。
まず,非線形ユーティリティ関数(nlu-mcts)のポリシーを,個別のポリシー実行から実現可能な異なる帰納法の有用性を最適化することで計算し,リスク認識と多目的設定の両方に優れたポリシーをもたらすモンテカルロ木探索アルゴリズムを提案する。
次に,NLU-MCTSを拡張した分布型モンテカルロ木探索アルゴリズム(DMCTS)を提案する。
DMCTSはリターンの効用に関する近似した後続分布を計算し、トンプソンサンプリングを用いてリスク対応および多目的設定のポリシーを計算する。
どちらのアルゴリズムも、リターンの期待する有用性のために、多目的強化学習において最先端を上回っている。
関連論文リスト
- Beyond Expected Return: Accounting for Policy Reproducibility when
Evaluating Reinforcement Learning Algorithms [9.649114720478872]
強化学習(Reinforcement Learning, RL)における多くの応用は、環境にノイズオリティが存在する。
これらの不確実性は、ひとつのロールアウトから別のロールアウトまで、まったく同じポリシーを別々に実行します。
RL の一般的な評価手順は、その分布の拡散を考慮しない期待された戻り値のみを用いて、連続した戻り値分布を要約する。
我々の研究は、この拡散をポリシーとして定義している: 何度もロールアウトするときに同様のパフォーマンスを得るポリシーの能力は、いくつかの現実世界のアプリケーションにおいて重要な特性である。
論文 参考訳(メタデータ) (2023-12-12T11:22:31Z) - Rollout Heuristics for Online Stochastic Contingent Planning [6.185979230964809]
部分的に観測可能なモンテカルロ計画(英語版)は、次の行動を決定するオンラインアルゴリズムである。
POMDPは、良い見積もりを計算するためのロールアウトポリシーに大きく依存している。
本稿では,PMDPを緊急計画問題としてモデル化する。
論文 参考訳(メタデータ) (2023-10-03T18:24:47Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Multi-Objective Coordination Graphs for the Expected Scalarised Returns
with Generative Flow Models [2.7648976108201815]
現実世界の問題を解決する鍵は、エージェント間の疎結合構造を利用することである。
風力発電の制御においては、電力の最大化とシステムコンポーネントのストレスの最小化の間にトレードオフが存在する。
エージェント間の疎結合を多目的協調グラフ(MO-CoG)としてモデル化する。
論文 参考訳(メタデータ) (2022-07-01T12:10:15Z) - Expected Scalarised Returns Dominance: A New Solution Concept for
Multi-Objective Decision Making [4.117597517886004]
多くの実世界のシナリオでは、ユーザのユーティリティはポリシーの単一実行から導かれる。
多目的強化学習を適用するためには、期待される戻り値の有用性を最適化する必要がある。
本稿では,期待されるユーティリティを最大化するためのソリューションセット構築の基準として,一階優位性を提案する。
次に、ESR支配的なポリシーの集合であるESRセットと呼ばれる新しいソリューションの概念を定義します。
論文 参考訳(メタデータ) (2021-06-02T09:42:42Z) - Risk Aware and Multi-Objective Decision Making with Distributional Monte
Carlo Tree Search [3.487620847066216]
本稿では,個別のポリシー実行から実現可能なリターンの効用に関する後続分布を学習するアルゴリズムを提案する。
提案アルゴリズムは,多目的強化学習における最先端の手法よりも,期待されるリターンの有効性に優れる。
論文 参考訳(メタデータ) (2021-02-01T16:47:39Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。