論文の概要: DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2004.14547v2
- Date: Thu, 11 Jun 2020 02:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:22:32.004265
- Title: DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement
Learning
- Title(参考訳): DSAC:リスク感性強化学習のための分散型ソフトアクター批判
- Authors: Xiaoteng Ma, Li Xia, Zhengyuan Zhou, Jun Yang, Qianchuan Zhao
- Abstract要約: 分散ソフトアクター批判(DSAC)と呼ばれる新しい強化学習アルゴリズムを提案する。
DSACは、蓄積された報酬の分配情報を利用して、より良いパフォーマンスを実現する。
本実験は,RLにおける分布モデルを用いて,リスク逆制御とリスク探索制御の両方において,エージェントがより優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 21.75934236018373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new reinforcement learning (RL) algorithm called
Distributional Soft Actor Critic (DSAC), which exploits the distributional
information of accumulated rewards to achieve better performance. Seamlessly
integrating SAC (which uses entropy to encourage exploration) with a principled
distributional view of the underlying objective, DSAC takes into consideration
the randomness in both action and rewards, and beats the state-of-the-art
baselines in several continuous control benchmarks. Moreover, with the
distributional information of rewards, we propose a unified framework for
risk-sensitive learning, one that goes beyond maximizing only expected
accumulated rewards. Under this framework we discuss three specific
risk-related metrics: percentile, mean-variance and distorted expectation. Our
extensive experiments demonstrate that with distribution modeling in RL, the
agent performs better for both risk-averse and risk-seeking control tasks.
- Abstract(参考訳): 本稿では,累積報酬の分布情報を活用し,よりよい性能を実現するための新しい強化学習(rl)アルゴリズムであるdistributal soft actor critic(dsac)を提案する。
SAC(エントロピーを用いて探索を促進する)と基礎となる目的の原則的な分布ビューを統合することで、DSACはアクションと報酬の両方のランダム性を考慮し、いくつかの連続制御ベンチマークで最先端のベースラインを破る。
さらに,報奨の分布情報を用いて,期待された累積報酬のみを最大化しない,リスクセンシティブな学習のための統一フレームワークを提案する。
このフレームワークでは、パーセンタイル、平均分散、歪んだ期待の3つのリスク関連メトリクスについて論じる。
我々は,RLにおける分布モデルを用いて,リスク逆制御とリスク探索制御の両方において,エージェントがより優れた性能を発揮することを示した。
関連論文リスト
- Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Risk-Aware Reinforcement Learning through Optimal Transport Theory [4.8951183832371]
本稿では、リスク対応フレームワークを構築するために、最適輸送理論と強化学習(RL)の統合を開拓する。
提案手法は目的関数を修正し,得られたポリシが期待される報酬を最大化するだけでなく,OT距離によって規定されるリスク制約も尊重する。
我々の貢献は、リスク分布、最適値関数、政策行動の間の関係をマッピングする一連の定理で裏付けられている。
論文 参考訳(メタデータ) (2023-09-12T13:55:01Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Risk Perspective Exploration in Distributional Reinforcement Learning [10.441880303257468]
リスクレベルでのリスクレベルと楽観的な振る舞いを探索するリスクスケジューリング手法を提案する。
マルチエージェント環境でのリスクスケジューリングを用いたDMIXアルゴリズムの性能向上を示す。
論文 参考訳(メタデータ) (2022-06-28T17:37:34Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - SENTINEL: Taming Uncertainty with Ensemble-based Distributional
Reinforcement Learning [6.587644069410234]
モデルベース強化学習(RL)におけるリスク依存型シーケンシャル意思決定の検討
リスクの新たな定量化、すなわちEmphcomposite riskを導入する。
我々は、SENTINEL-Kが戻り分布をよりよく推定し、複合リスク推定と併用しながら、競合するRLアルゴリズムよりもリスクに敏感な性能を示すことを実験的に検証した。
論文 参考訳(メタデータ) (2021-02-22T14:45:39Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。