論文の概要: Risk-Aware Transfer in Reinforcement Learning using Successor Features
- arxiv url: http://arxiv.org/abs/2105.14127v1
- Date: Fri, 28 May 2021 22:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:34:39.461660
- Title: Risk-Aware Transfer in Reinforcement Learning using Successor Features
- Title(参考訳): 後継機能を用いた強化学習におけるリスク・アウェア・トランスファー
- Authors: Michael Gimelfarb, Andr\'e Barreto, Scott Sanner, Chi-Guhn Lee
- Abstract要約: リスク対応後継機能(RaSF)が,実践的な強化学習フレームワークにシームレスに統合されていることを示す。
RaSFは、学習したポリシーのリスクを考慮すると、SFなどの代替手法よりも優れています。
- 参考スコア(独自算出の注目度): 16.328601804662657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample efficiency and risk-awareness are central to the development of
practical reinforcement learning (RL) for complex decision-making. The former
can be addressed by transfer learning and the latter by optimizing some utility
function of the return. However, the problem of transferring skills in a
risk-aware manner is not well-understood. In this paper, we address the problem
of risk-aware policy transfer between tasks in a common domain that differ only
in their reward functions, in which risk is measured by the variance of reward
streams. Our approach begins by extending the idea of generalized policy
improvement to maximize entropic utilities, thus extending policy improvement
via dynamic programming to sets of policies and levels of risk-aversion. Next,
we extend the idea of successor features (SF), a value function representation
that decouples the environment dynamics from the rewards, to capture the
variance of returns. Our resulting risk-aware successor features (RaSF)
integrate seamlessly within the RL framework, inherit the superior task
generalization ability of SFs, and incorporate risk-awareness into the
decision-making. Experiments on a discrete navigation domain and control of a
simulated robotic arm demonstrate the ability of RaSFs to outperform
alternative methods including SFs, when taking the risk of the learned policies
into account.
- Abstract(参考訳): サンプル効率とリスク認識は、複雑な意思決定のための実践的強化学習(RL)の開発の中心である。
前者は転送学習によって対処でき、後者はリターンのユーティリティ関数を最適化することで対処できる。
しかし、リスクを意識した技術移転の問題は十分に理解されていない。
本稿では,共通領域におけるタスク間のリスク認識型ポリシー伝達の問題点について,報酬ストリームのばらつきによってリスクを計測する報奨機能のみが異なる問題について論じる。
我々のアプローチは、エントロピー的ユーティリティを最大化するために一般化された政策改善の考え方を拡張し、ダイナミックプログラミングによる政策改善を一連の政策とリスク回避レベルにまで拡張することから始まります。
次に、報酬から環境ダイナミクスを分離する値関数表現である後継機能(SF)の考え方を拡張し、リターンの分散を捉える。
我々のリスク認識後継機能(RaSF)は、RLフレームワークにシームレスに統合され、SFの優れたタスク一般化能力を継承し、リスク認識を意思決定に組み込む。
個別のナビゲーション領域の実験とシミュレーションされたロボットアームの制御は、学習されたポリシーのリスクを考慮すると、RaSFがSFを含む代替手法より優れていることを示す。
関連論文リスト
- CAT: Caution Aware Transfer in Reinforcement Learning via Distributional Risk [19.698719925388513]
本稿では,CAT(Caution-Aware Transfer Learning)フレームワークを紹介する。
従来のアプローチとは異なり、我々は「注意」をより一般化され包括的なリスクの概念として定義する。
我々の中核的なイノベーションは、報酬の返済の重み付けの総和を最適化することであり、移行プロセス中における国家行動の占有度に基づく注意が必要である。
論文 参考訳(メタデータ) (2024-08-16T15:47:08Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Risk-Sensitive Policy with Distributional Reinforcement Learning [4.523089386111081]
本研究は、リスクに敏感なシーケンシャルな意思決定ポリシーを導出する、分布RLに基づく新しい手法を提案する。
リスクベースのユーティリティ関数$U$と名付けられ、任意の分布RLアルゴリズムによって自然に学習されたランダムリターン分布$Z$から抽出することができる。
これにより、リスク最小化と期待されるリターン最大化の間の完全な潜在的なトレードオフをまたがることができる。
論文 参考訳(メタデータ) (2022-12-30T14:37:28Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Improving Robustness via Risk Averse Distributional Reinforcement
Learning [13.467017642143581]
実環境ではなくシミュレーションでポリシーが訓練される場合、ロバスト性は重要である。
本研究では,シミュレーショントレーニングと実世界の実装のギャップを埋めるため,ロバストなポリシーを学習するためのリスク認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-01T20:03:10Z) - Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning [75.17074235764757]
割引無限地平線MDPにおけるリスク・アバース制御の枠組みを提案する。
MVPIは、政策評価方法やリスクニュートラル制御手法を棚から外すためのリスク・アバース制御に投入できる点において、非常に柔軟性がある。
この柔軟性は、リスク中立制御とリスク逆制御のギャップを減らし、新しい拡張MDPの開発によって達成される。
論文 参考訳(メタデータ) (2020-04-22T22:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。