Fugu-MT 論文翻訳(概要): Risk Aware and Multi-Objective Decision Making with Distributional Monte Carlo Tree Search

論文の概要: Risk Aware and Multi-Objective Decision Making with Distributional Monte Carlo Tree Search

arxiv url: http://arxiv.org/abs/2102.00966v1
Date: Mon, 1 Feb 2021 16:47:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-02 16:15:31.570650
Title: Risk Aware and Multi-Objective Decision Making with Distributional Monte Carlo Tree Search
Title（参考訳）: 分布型モンテカルロ木探索によるリスク認識と多目的意思決定
Authors: Conor F. Hayes, Mathieu Reymond, Diederik M. Roijers, Enda Howley, Patrick Mannion
Abstract要約: 本稿では,個別のポリシー実行から実現可能なリターンの効用に関する後続分布を学習するアルゴリズムを提案する。提案アルゴリズムは,多目的強化学習における最先端の手法よりも,期待されるリターンの有効性に優れる。
参考スコア（独自算出の注目度）: 3.487620847066216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In many risk-aware and multi-objective reinforcement learning settings, the utility of the user is derived from the single execution of a policy. In these settings, making decisions based on the average future returns is not suitable. For example, in a medical setting a patient may only have one opportunity to treat their illness. When making a decision, just the expected return -- known in reinforcement learning as the value -- cannot account for the potential range of adverse or positive outcomes a decision may have. Our key insight is that we should use the distribution over expected future returns differently to represent the critical information that the agent requires at decision time. In this paper, we propose Distributional Monte Carlo Tree Search, an algorithm that learns a posterior distribution over the utility of the different possible returns attainable from individual policy executions, resulting in good policies for both risk-aware and multi-objective settings. Moreover, our algorithm outperforms the state-of-the-art in multi-objective reinforcement learning for the expected utility of the returns.
Abstract（参考訳）: 多くのリスク認識および多目的強化学習設定において、ユーザの有用性はポリシーの単一実行から導かれる。これらの設定では、平均的な将来のリターンに基づいた決定は適切ではない。例えば、医療現場では、患者は病気を治療する機会を1つだけ持つことができる。決定を行う場合、期待されるリターン(強化学習では値として知られています)は、決定が持つ可能性のある有害あるいはポジティブな結果の範囲を考慮できないのです。我々の重要な洞察は、エージェントが決定時に要求する重要な情報を表現するために、期待される未来よりも分布を使うべきだということです。本論文では,個々の政策実行から得られる様々なリターンの有用性について,後方分布を学習するアルゴリズムである分散モンテカルロ木探索を提案する。さらに,本アルゴリズムは,期待値の効用に対する多目的強化学習において,最先端の手法よりも優れていた。

関連論文リスト

Risk-Averse Reinforcement Learning with Itakura-Saito Loss [63.620958078179356]
リスク回避エージェントはリスクを最小限に抑えるポリシーを選択し、時には期待される価値を犠牲にする。状態値と行動値の関数を学習するために,板倉-斎藤偏差に基づく数値的に安定かつ数学的に損失関数を導入する。実験セクションでは、既知の解析解を含む複数のシナリオを探索し、その損失関数が代替よりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-22T17:18:07Z)
Beyond Expected Return: Accounting for Policy Reproducibility when Evaluating Reinforcement Learning Algorithms [9.649114720478872]
強化学習(Reinforcement Learning, RL)における多くの応用は、環境にノイズオリティが存在する。これらの不確実性は、ひとつのロールアウトから別のロールアウトまで、まったく同じポリシーを別々に実行します。 RL の一般的な評価手順は、その分布の拡散を考慮しない期待された戻り値のみを用いて、連続した戻り値分布を要約する。我々の研究は、この拡散をポリシーとして定義している: 何度もロールアウトするときに同様のパフォーマンスを得るポリシーの能力は、いくつかの現実世界のアプリケーションにおいて重要な特性である。
論文参考訳（メタデータ） (2023-12-12T11:22:31Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Risk-Sensitive Policy with Distributional Reinforcement Learning [4.523089386111081]
本研究は、リスクに敏感なシーケンシャルな意思決定ポリシーを導出する、分布RLに基づく新しい手法を提案する。リスクベースのユーティリティ関数$U$と名付けられ、任意の分布RLアルゴリズムによって自然に学習されたランダムリターン分布$Z$から抽出することができる。これにより、リスク最小化と期待されるリターン最大化の間の完全な潜在的なトレードオフをまたがることができる。
論文参考訳（メタデータ） (2022-12-30T14:37:28Z)
Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文参考訳（メタデータ） (2022-12-29T22:01:43Z)
Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning [2.3449131636069898]
多くのリスク認識および多目的強化学習設定において、ユーザの有用性はポリシーの単一実行から導かれる。 2つの新しいモンテカルロ木探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-23T15:33:19Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Expected Scalarised Returns Dominance: A New Solution Concept for Multi-Objective Decision Making [4.117597517886004]
多くの実世界のシナリオでは、ユーザのユーティリティはポリシーの単一実行から導かれる。多目的強化学習を適用するためには、期待される戻り値の有用性を最適化する必要がある。本稿では,期待されるユーティリティを最大化するためのソリューションセット構築の基準として,一階優位性を提案する。次に、ESR支配的なポリシーの集合であるESRセットと呼ばれる新しいソリューションの概念を定義します。
論文参考訳（メタデータ） (2021-06-02T09:42:42Z)
Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文参考訳（メタデータ） (2021-04-26T18:54:31Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
Randomized Entity-wise Factorization for Multi-Agent Reinforcement Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文参考訳（メタデータ） (2020-06-07T18:28:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。